Original title:
Filtrování textů extrahovaných z PDF, OCR nebo webu
Translated title:
Filtering of Texts Extracted from PDF, OCR or Web
Authors:
Lehnert, Filip ; Plchot, Oldřich (referee) ; Szőke, Igor (advisor) Document type: Bachelor's theses
Year:
2013
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Předmětem této práce je pomocí sadou skriptů zdokonalit převod různých typů dokumentů do čistě textové podoby. Převodem různých nástrojů dochází ke vzniku šumu a ne zcela korektním převodem znaků. Tyto skripty extrahovaný textový soubor vyčistí tak, aby výsledný text byl čitelný, dával smysl a neobsahoval zbytky různě vyskytujících se znaků z převodu grafů, tabulek, vzorců apod. Skript pracuje univerzálně a nevyžaduje vstup vzniklý pouze z nástrojů OCR nebo převodu z formátu PDF či webu.
The objective of this thesis is to implement a set of scripts to improve the transfer of various types of documents into fully text. There appears noise and not entirely correct character conversion by converting various file formats. These scripts extracted text file cleans so that the resulting text is readable, make sense and does not contain any residues of various characters appearing by the transfer of graphs, tables, formulas, etc. The script works universally and does not require input solely by OCR tools or converting from PDF or web.
Keywords:
data conversion; dictionary; extract; filter; filtering data; grammar rules; OCR; PDF; plain text; scripts; extrahovat; filtrovat; filtrování dat; gramatická pravidla; OCR; PDF; převod dat; skripty; slovník; čistý text
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/187459