Název:
Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku
Překlad názvu:
Analysis and Data Extraction from a Set of Documents Merged Together
Autoři:
Jarolím, Jordán ; Bartík, Vladimír (oponent) ; Kreslíková, Jitka (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2018
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá získáváním relevantních informací z dokumentů, automatizovaným rozdělováním vícero dokumentů spojených do jednoho celku a tvorbou nástroje, který umožňuje získání relevantních informací z dokumentů a jejich automatizované rozdělení. Jsou diskutovány především metody pro získání textových dat ze skenovaných dokumentů, rozpoznávání pojmenovaných entit, shlukování dokumentů, jejich podpůrné algoritmy a jsou popisovány metriky sloužící pro automatizované rozdělování dokumentů. Dále je vysvětlen algoritmus implementovaného prototypu daného systému, jsou popsány použité nástroje a techniky a je evaluována jeho úspěšnost. Nakonec jsou diskutována možná rozšíření a budoucí rozvoj této práce.
This thesis deals with mining of relevant information from documents and automatic splitting of multiple documents merged together. Moreover, it describes the design and implementation of software for data mining from documents and for automatic splitting of multiple documents. Methods for acquiring textual data from scanned documents, named entity recognition, document clustering, their supportive algorithms and metrics for automatic splitting of documents are described in this thesis. Furthermore, an algorithm of implemented software is explained and tools and techniques used by this software are described. Lastly, the success rate of the implemented software is evaluated. In conclusion, possible extensions and further development of this thesis are discussed at the end.
Klíčová slova:
automatické rozdělování dokumentů; cosinova podobnost; Dokument; euklidova vzdálenost; histogram; K-means; metrické prostory; RAKE; rozdělování; rozpoznávání pojmenovaných entit; shlukování dokumentů; SIFT points; spojené dokumenty; vektorové prostory; získávání informací; automatic document splitting; cosine similarity; data mining; Document; document clustering; euclid distance; histogram; K-means; merged documents; metric spaces; named entity recognition; RAKE; SIFT points; splitting; vector spaces
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/84912