Název:
Grafové neuronové sítě pro analýzu rozložení stránek
Překlad názvu:
Page Layout Analysis with Graph Neural Networks
Autoři:
Otčenáš, Matej ; Kišš, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Cieľom tejto práce je experimentálne otestovať silu grafových neurónových sietí pri komplexnej analýze rozloženia dokumentov. Z pohľadu typov dokumentov sú cieľom predovšetkým novinové články a historické spisy, ako napríklad ručne písané knihy alebo stredoveké manuskripty. Tie sa totižto vyznačujú komplexnosťou svojho rozloženia, nemajú pevne danú štruktúru alebo je samotný text veľmi členitý. Práca sa zaoberá vytvorením vhodných datasetov, ktoré slúžia na natrénovanie a otestovanie prístupu pre globálne zoradenie postupnosti čítania riadkov stránky a pridelením jednej z množiny zadefinovaných tried každému riadku. Predmetom skúmania je taktiež vytvorenie vhodnej reprezentácie grafu, ktorý bude zachytávať vzťahy medzi jednotlivými komponentami na stránke a zvolením vhodnej grafovej neurónovej siete s príslušnými parametrami. Na záver sú jednotlivé prístupy vyhodnotené a porovnané na viacerých metrikách vhodných pre danú problematiku a zistenia zosumarizované s diskusiou o možných vylepšeniach a limitáciach.
The aim of this work is to experimentally test the power of graph neural networks in the comprehensive analysis of document layout. In terms of document types, the focus is primarily on newspaper articles and historical writings, such as handwritten books or medieval manuscripts. These are characterized by the complexity of their layout, lacking a fixed structure or having highly segmented text. The work deals with the creation of suitable datasets for training and testing an approach for globally ordering the sequence of reading lines on a page and assigning each line to one of the defined classes. The research also involves creating an appropriate representation of a graph that captures relationships between individual components on the page and selecting a suitable graph neural network with the appropriate parameters. Finally, the different approaches are evaluated and compared on multiple metrics suitable for the given problem, and the findings are summarized with a discussion on possible enhancements and limitations.
Klíčová slova:
edge classification; GAT; GCN; GNN; GraphSAGE; KNN graph; layout analysis; node classification; Page XML; reading order
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248931