Název:
Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů
Překlad názvu:
Extension of Apache Tika with Industrial File Formats Text Extraction
Autoři:
Rešetár, René ; Burget, Radek (oponent) ; Rychlý, Marek (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cieľom bakalárskej práce bolo rozšíriť syntaktické analyzátory projektu Apache Tika o extrakciu tabuliek a dát z priemyslových formátov dokumentov z laboratórnych prístrojov. Tieto dáta majú byť uložené v štruktúrovanom formáte podľa určitej schémy. V teoretickej časti boli preskúmané dodané industriálne formáty, projekt Apache Tika a možnosti jeho rozšírenia. V praktickej časti bol navrhnutý a implementovaný nástroj, ktorý dokumenty pomocou projektu Apache Tika klasifikuje, spracuje, vytvára z nich štruktúrované dáta vo formáte JSON a tie následne validuje. Na záver bola vytvorená sada testov pre overenie a demonštráciu vlastností riešenia.
The goal of the bachelor's thesis was to extend the parsers of the Apache Tika project with data and table extraction from industrial document formats from laboratory instruments. These data will be stored in a structured format according to a certain scheme. In the theoretical part, the supplied industrial formats, the Apache Tika project and the possibilities of its expansion were examined. In the practical part, a tool was designed and implemented, which classifies documents using the Apache Tika project, processes them, creates structured data from them in the JSON format and subsequently validates them. Finally, a set of tests was created to verify and demonstrate the properties of the solution.
Klíčová slova:
.arff; Apache Tika; bez papierové laboratórium; csv; extrakcia dát; extrakcia tabuliek; farmaceutický priemysel; integrita dát; Java; JSON; kontrolné laboratória; laboratória; Maven; MIME-typy; pdf; Service Provider; software; SVP; weka; xlsx; štruktúrované dáta; .arff; Apache Tika; control laboratories; csv; data extraction; data integrity; farmaceutic industry; Java; JSON; laboratories; Maven; MIME-types; non-paper laboratories; pdf; Service Provider; software; structured data; SVP; table extraction; weka; xlsx
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/199350