Original title:
Extrakce dat z dokumentů PDF
Translated title:
Data Extraction from PDF Documents
Authors:
Bartošák, Michal ; Bartík, Vladimír (referee) ; Burget, Radek (advisor) Document type: Bachelor's theses
Year:
2023
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Práce se zaměřuje na extrakci informací ze zdravotních záznamů ve formátu PDF, které byly vytvořeny srdečními stimulátory při pravidelné kontrole pacientů v nemocnici. Výsledkem této práce je desktopová aplikace v programovacím jazyce Java, která získává a analyzuje informace ze záznamů pomocí knihoven PDFBox a pdf2dom. Výstupem aplikace je CSV soubor, který reprezentuje získané hodnoty formou tabulky, a extrahované obrázky, které se ukládají do výstupní složky určené uživatelem. Testování aplikace na záznamech od tří různých společností prokázalo, že je extrakce záznamů velmi spolehlivá (celkové metriky přesnosti i úplnosti dosáhly téměř vždy 100 %), pokud jsou správně nastaveny její argumenty.
The work focuses on extracting information from medical records saved in PDF format, which were created by heart pacemakers during regular patient monitoring in the hospital. The result of this work is a desktop application written in Java that retrieves and analyzes data from records using PDFBox and pdf2dom libraries. The output of the application is a CSV file, which represents the acquired values in table form, as well as extracted images that are saved to a user-defined output folder. Application testing on records from three different companies proved that record extraction is highly reliable (with overall precision and recall metrics reaching almost 100 % in every test), provided that the application arguments are correctly set.
Keywords:
data extraction; extractor; medical record; PDF; pdf2dom; PDFBox; extrakce dat; extraktor; PDF; pdf2dom; PDFBox; zdravotní záznam
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/211123