Original title:
Automatizovaná extrakce strukturovaných dat dokumentů
Translated title:
Automated Metadata Extraction From Document Images
Authors:
Křivánek, Jakub ; Vaško, Marek (referee) ; Kohút, Jan (advisor) Document type: Bachelor's theses
Year:
2024
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato bakalářská práce řeší problém získávání strukturovaných dat ze skenů dokumentů českých knihoven. Cílem práce je usnadnit časově náročný manuální proces knihovníkům. Zaměřil jsem se vytvoření datových sad z dokumentů českých knihoven a na detekci metadat na těchto datasetech. Datové sady jsem vytvořil pro knihy a druhou pro periodika. Detekce byla realizována způsoben klasifikace řádků přečtených z dokumentů. Pro to jsou použita plně propojená neuronoví síť a síť využívající Transformer Encoder. Druhý způsob detekce metadat je založen na detekci objektů na skenech dokumentů pomocí modelu YOLOv8. Detekce pomocí plně propojené neuronové sítě dosahuje F1 skóre 0,83 na datasetu knih a 0,78 na datasetu periodik. F1 skóre sítě s Transformer Encoder dosahuje hodnot 0,84 na datasetu knih a 0,59 na datasetu periodik. Model YOLO dosahuje F1 skóre 0,86 (confidece na 0,549) na datasetu knih a 0,7 (confidence na 0,336) na datasetu periodik.
This Bachelor thesis addresses the problem of extracting structured data from scans of documents from Czech libraries. The aim of the thesis is to simplify the time-consuming manual process for librarians. I focused on creating datasets from documents of Czech libraries and on detecting metadata on these datasets. I created one dataset for books and another for periodicals. Detection was performed by classifying lines read from the documents. This utilized a fully connected neural network and a network employing a Transformer Encoder. The second method of metadata detection is based on object detection in document scans using the YOLOv8 model. Detection using the fully connected neural network achieves an F1 score of 0.83 on the book dataset and 0.78 on the periodicals dataset. The Transformer Encoder network achieves F1 scores of 0.84 on the book dataset and 0.59 on the periodicals dataset. The YOLO model achieves an F1 score of 0.86 (confidence at 0.549) on the book dataset and 0.7 (confidence at 0.336) on the periodicals dataset.
Keywords:
automatic metadata extraction; document data classification; document processing; metadata; neural networks; Transformer Encoder; YOLO; automatická extrakce metadat; klasifikace dat dokumentů; metadata; neuronové sítě; Transformer Encoder; YOLO; zpracování dokumentů
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/246595