Název:
Extrakce dat z dokumentů na základě analýzy rozložení
Překlad názvu:
Layout-based Data Extraction from Documents
Autoři:
Sedláček, Martin ; Bartík, Vladimír (oponent) ; Burget, Radek (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2023
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Diplomová práce se zabývá automatizovanou extrakcí dat z lékařských zpráv ve formátu PDF na základě analýzy rozložení dokumentu. Hlavním obsahem práce je uvedení čtenáře do problematiky extrakce dat, srovnávaní existujících nástrojů a představení návrhu a požadavků vyvíjeného nástroje, který bude založen nad aplikačním rámcem FitLayout. Práce dále popisuje samotnou implementaci nástroje v jazyce Java a komentuje výsledky, kterých nástroj dosáhl na reálných datech.
This thesis deals with automated data extraction from medical reports in PDF format based on document layout analysis. The main content of the thesis is an introduction to data extraction, a comparison of existing tools and a presentation of the design and requirements of the developed tool, which will be based on the FitLayout application framework. The thesis then describes the actual implementation of the tool in Java and comments on the results achieved by the tool on real data.
Klíčová slova:
data; extrakce; FitLayout; FN Bnro; Java; PDF; rozložení dokumentu; Swing; získávání dat; data; data extraction; document layout; extraction; FitLayout; FN Brno; Java; layout-based; PDF; Swing
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211935