Název:
Automatizovaná extrakce strukturovaných dat dokumentů
Překlad názvu:
Automated Metadata Extraction From Document Images
Autoři:
Křivánek, Jakub ; Vaško, Marek (oponent) ; Kohút, Jan (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato bakalářská práce řeší problém získávání strukturovaných dat ze skenů dokumentů českých knihoven. Cílem práce je usnadnit časově náročný manuální proces knihovníkům. Zaměřil jsem se vytvoření datových sad z dokumentů českých knihoven a na detekci metadat na těchto datasetech. Datové sady jsem vytvořil pro knihy a druhou pro periodika. Detekce byla realizována způsoben klasifikace řádků přečtených z dokumentů. Pro to jsou použita plně propojená neuronoví síť a síť využívající Transformer Encoder. Druhý způsob detekce metadat je založen na detekci objektů na skenech dokumentů pomocí modelu YOLOv8. Detekce pomocí plně propojené neuronové sítě dosahuje F1 skóre 0,83 na datasetu knih a 0,78 na datasetu periodik. F1 skóre sítě s Transformer Encoder dosahuje hodnot 0,84 na datasetu knih a 0,59 na datasetu periodik. Model YOLO dosahuje F1 skóre 0,86 (confidece na 0,549) na datasetu knih a 0,7 (confidence na 0,336) na datasetu periodik.
This Bachelor thesis addresses the problem of extracting structured data from scans of documents from Czech libraries. The aim of the thesis is to simplify the time-consuming manual process for librarians. I focused on creating datasets from documents of Czech libraries and on detecting metadata on these datasets. I created one dataset for books and another for periodicals. Detection was performed by classifying lines read from the documents. This utilized a fully connected neural network and a network employing a Transformer Encoder. The second method of metadata detection is based on object detection in document scans using the YOLOv8 model. Detection using the fully connected neural network achieves an F1 score of 0.83 on the book dataset and 0.78 on the periodicals dataset. The Transformer Encoder network achieves F1 scores of 0.84 on the book dataset and 0.59 on the periodicals dataset. The YOLO model achieves an F1 score of 0.86 (confidence at 0.549) on the book dataset and 0.7 (confidence at 0.336) on the periodicals dataset.
Klíčová slova:
automatická extrakce metadat; klasifikace dat dokumentů; metadata; neuronové sítě; Transformer Encoder; YOLO; zpracování dokumentů; automatic metadata extraction; document data classification; document processing; metadata; neural networks; Transformer Encoder; YOLO
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/246595