Název:
Filtrování textů extrahovaných z PDF, OCR nebo webu
Překlad názvu:
Filtering of Texts Extracted from PDF, OCR or Web
Autoři:
Žigárdi, Tomáš ; Plchot, Oldřich (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2013
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato bakalářská práce se zabývá normalizací textů vzniklých převedením z různých formátů a vytvořením výslovnostních slovníků. Jednou z jejich možností využití je například při strojovém zpracování řeči. Analyzovány jsou chyby, které vznikají při převodu a původní řešení tohoto problému. Dále je uveden návrh a implementace normalizačních kroků a výslovnostních slovníků. Výsledky implementovaného řešení jsou vyhodnoceny a porovnány s existujícím řešením.
This bachelor thesis describes normalization of texts created by conversion of other formats and creation of pronunciation dictionaries. They are important in speech processing process. Mistakes caused by conversion and original solution of this problem are analyzed. Design and implementation of normalization steps and pronunciation dictionaries is shown. Results are compared with results of original solution of this problem.
Klíčová slova:
Awk; Bash; Normalizace textu; OCR; PDF; Perl; regulární výraz; výslovnostní slovníky; Awk; Bash; OCR; PDF; Perl; pronunciation dictionaries; regular expression; Text normalization
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/54938