Original title:
Grafové neuronové sítě pro analýzu rozložení stránek
Translated title:
Page Layout Analysis with Graph Neural Networks
Authors:
Otčenáš, Matej ; Kišš, Martin (referee) ; Hradiš, Michal (advisor) Document type: Master’s theses
Year:
2024
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Cieľom tejto práce je experimentálne otestovať silu grafových neurónových sietí pri komplexnej analýze rozloženia dokumentov. Z pohľadu typov dokumentov sú cieľom predovšetkým novinové články a historické spisy, ako napríklad ručne písané knihy alebo stredoveké manuskripty. Tie sa totižto vyznačujú komplexnosťou svojho rozloženia, nemajú pevne danú štruktúru alebo je samotný text veľmi členitý. Práca sa zaoberá vytvorením vhodných datasetov, ktoré slúžia na natrénovanie a otestovanie prístupu pre globálne zoradenie postupnosti čítania riadkov stránky a pridelením jednej z množiny zadefinovaných tried každému riadku. Predmetom skúmania je taktiež vytvorenie vhodnej reprezentácie grafu, ktorý bude zachytávať vzťahy medzi jednotlivými komponentami na stránke a zvolením vhodnej grafovej neurónovej siete s príslušnými parametrami. Na záver sú jednotlivé prístupy vyhodnotené a porovnané na viacerých metrikách vhodných pre danú problematiku a zistenia zosumarizované s diskusiou o možných vylepšeniach a limitáciach.
The aim of this work is to experimentally test the power of graph neural networks in the comprehensive analysis of document layout. In terms of document types, the focus is primarily on newspaper articles and historical writings, such as handwritten books or medieval manuscripts. These are characterized by the complexity of their layout, lacking a fixed structure or having highly segmented text. The work deals with the creation of suitable datasets for training and testing an approach for globally ordering the sequence of reading lines on a page and assigning each line to one of the defined classes. The research also involves creating an appropriate representation of a graph that captures relationships between individual components on the page and selecting a suitable graph neural network with the appropriate parameters. Finally, the different approaches are evaluated and compared on multiple metrics suitable for the given problem, and the findings are summarized with a discussion on possible enhancements and limitations.
Keywords:
edge classification; GAT; GCN; GNN; GraphSAGE; KNN graph; layout analysis; node classification; Page XML; reading order
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248931