Original title:
Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů
Translated title:
Extension of Apache Tika with Industrial File Formats Text Extraction
Authors:
Rešetár, René ; Burget, Radek (referee) ; Rychlý, Marek (advisor) Document type: Bachelor's theses
Year:
2021
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cieľom bakalárskej práce bolo rozšíriť syntaktické analyzátory projektu Apache Tika o extrakciu tabuliek a dát z priemyslových formátov dokumentov z laboratórnych prístrojov. Tieto dáta majú byť uložené v štruktúrovanom formáte podľa určitej schémy. V teoretickej časti boli preskúmané dodané industriálne formáty, projekt Apache Tika a možnosti jeho rozšírenia. V praktickej časti bol navrhnutý a implementovaný nástroj, ktorý dokumenty pomocou projektu Apache Tika klasifikuje, spracuje, vytvára z nich štruktúrované dáta vo formáte JSON a tie následne validuje. Na záver bola vytvorená sada testov pre overenie a demonštráciu vlastností riešenia.
The goal of the bachelor's thesis was to extend the parsers of the Apache Tika project with data and table extraction from industrial document formats from laboratory instruments. These data will be stored in a structured format according to a certain scheme. In the theoretical part, the supplied industrial formats, the Apache Tika project and the possibilities of its expansion were examined. In the practical part, a tool was designed and implemented, which classifies documents using the Apache Tika project, processes them, creates structured data from them in the JSON format and subsequently validates them. Finally, a set of tests was created to verify and demonstrate the properties of the solution.
Keywords:
.arff; Apache Tika; control laboratories; csv; data extraction; data integrity; farmaceutic industry; Java; JSON; laboratories; Maven; MIME-types; non-paper laboratories; pdf; Service Provider; software; structured data; SVP; table extraction; weka; xlsx; .arff; Apache Tika; bez papierové laboratórium; csv; extrakcia dát; extrakcia tabuliek; farmaceutický priemysel; integrita dát; Java; JSON; kontrolné laboratória; laboratória; Maven; MIME-typy; pdf; Service Provider; software; SVP; weka; xlsx; štruktúrované dáta
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/199350