Original title:
Filtrování textů extrahovaných z PDF, OCR nebo webu
Translated title:
Filtering of Texts Extracted from PDF, OCR or Web
Authors:
Žigárdi, Tomáš ; Plchot, Oldřich (referee) ; Szőke, Igor (advisor) Document type: Bachelor's theses
Year:
2013
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato bakalářská práce se zabývá normalizací textů vzniklých převedením z různých formátů a vytvořením výslovnostních slovníků. Jednou z jejich možností využití je například při strojovém zpracování řeči. Analyzovány jsou chyby, které vznikají při převodu a původní řešení tohoto problému. Dále je uveden návrh a implementace normalizačních kroků a výslovnostních slovníků. Výsledky implementovaného řešení jsou vyhodnoceny a porovnány s existujícím řešením.
This bachelor thesis describes normalization of texts created by conversion of other formats and creation of pronunciation dictionaries. They are important in speech processing process. Mistakes caused by conversion and original solution of this problem are analyzed. Design and implementation of normalization steps and pronunciation dictionaries is shown. Results are compared with results of original solution of this problem.
Keywords:
Awk; Bash; OCR; PDF; Perl; pronunciation dictionaries; regular expression; Text normalization; Awk; Bash; Normalizace textu; OCR; PDF; Perl; regulární výraz; výslovnostní slovníky
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/54938