Název:
Filtrování textů extrahovaných z PDF, OCR nebo webu
Překlad názvu:
Filtering of Texts Extracted from PDF, OCR or Web
Autoři:
Lehnert, Filip ; Plchot, Oldřich (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2013
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Předmětem této práce je pomocí sadou skriptů zdokonalit převod různých typů dokumentů do čistě textové podoby. Převodem různých nástrojů dochází ke vzniku šumu a ne zcela korektním převodem znaků. Tyto skripty extrahovaný textový soubor vyčistí tak, aby výsledný text byl čitelný, dával smysl a neobsahoval zbytky různě vyskytujících se znaků z převodu grafů, tabulek, vzorců apod. Skript pracuje univerzálně a nevyžaduje vstup vzniklý pouze z nástrojů OCR nebo převodu z formátu PDF či webu.
The objective of this thesis is to implement a set of scripts to improve the transfer of various types of documents into fully text. There appears noise and not entirely correct character conversion by converting various file formats. These scripts extracted text file cleans so that the resulting text is readable, make sense and does not contain any residues of various characters appearing by the transfer of graphs, tables, formulas, etc. The script works universally and does not require input solely by OCR tools or converting from PDF or web.
Klíčová slova:
extrahovat; filtrovat; filtrování dat; gramatická pravidla; OCR; PDF; převod dat; skripty; slovník; čistý text; data conversion; dictionary; extract; filter; filtering data; grammar rules; OCR; PDF; plain text; scripts
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/187459