Název:
Dělení textu do logických celků
Překlad názvu:
Segmentation of logical units in text
Autoři:
Kostelník, Martin ; Kišš, Martin (oponent) ; Beneš, Karel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Cílem projektu bylo vytvořit systém pro automatickou segmentaci textu do logických celků. Práce staví na systému PERO-OCR a cílí na zlepšení zpracovávání českých historických dokumentů a jejich vyhledávačů používaných knihovníky a vědci. Práce zahrnovala vytvoření a anotace vlastní datové sady složené celkem z 4044 stránek z knih, slovníků a novin. K problému segmentaci textu je přistoupeno inovativních přístupem, kdy je brán jako shlukovací problém jednotlivých řádků textu. Metoda je dvoufázová: nejprve probíhá detekce regionů textu pomocí modelu YOLOv8 a následuje jejich spojení grafovou neuronovou sítí. Vyhodnocení je provedeno pomocí shlukovací metriky V-measure a na testovacím datasetu dosahuje hodnot 77.93 % pro knihy, 95.79 % pro slovníky a 90.23 % pro noviny.
The goal of this project is the topic segmentation of text into coherent units. It builds on the PERO-OCR software, aiming to improve the processing of Czech historical documents and information retrieval for librarians and scientists. This included the creation and annotation of a custom dataset comprised of 4044 pages from books, dictionaries, and periodicals. I propose an innovative approach treating segmentation as a line clustering problem. The method involves a two-stage process: initial detection of regions of interest containing text lines using the YOLOv8 model, followed by joining them using a graph neural network. This method achieves a V-measure of 77.93 %, 95.79 % and 90.23 % for books, dictionaries and periodicals, respectively.
Klíčová slova:
BERT; graph neural networks; historical documents; language models; machine learning; object detection; OCR; optical character recognition; text segmentation; YOLOv8; BERT; detekce objektů; grafové neuronové sítě; historické dokumenty; jazykové modely; OCR; optické rozpoznávání znaků; segmentace textu; strojové učení; YOLOv8
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248909