Název:
Vytěžování textu ze strojově psaných dokumentů
Překlad názvu:
Character recognition of machine-written documents
Autoři:
Kindermann, Hubert ; Blažek, Jan (vedoucí práce) ; Kolomazník, Jan (oponent) Typ dokumentu: Bakalářské práce
Rok:
2011
Jazyk:
cze
Abstrakt: [cze][eng] V předložené práci řešíme problém extrakce a rozpoznání znaků z tištěných dokumentů digitalizovaných skenerem nebo fotoaparátem. Uvádíme způsob normalizace osvětlení dokumentů rezistentní vůči šumu. Pokračujeme extrakcí jednotlivých znaků z dokumentu a následně jejich rozpoznáním pomocí systému vícevrstvých neurálních sítí s dopředným šířením. Okrajově se zabýváme zpracováním výsledné množiny rozpoznaných symbolů, které je nezbytné pro další práci s vytěženým textem. Posledním krokem je korekce výstupu založená na okolích jednotlivých znaků. Podařilo se nám implementovat automatický systém obsahující všechny zmíněné komponenty.In the present thesis we solve the problem of symbol extraction and recognition from printed documents digitized by the scanner or camera. We introduce a noise resistant algorithm of document lighting normalization. We continue with the extraction of individual characters from the document and their recognition with a system of feedforward multilayer neural networks. We also focus on processing of the resulting set of recognized characters, which is necessary for further use of the extracted text. The last step is correction of the output based on surrounding letters of each character. We have successfully implemented an automatic system containing all the above components.
Klíčová slova:
Extrakce textu; Normalizace osvětlení; Optické rozpoznávání znaků; Lightning Normalization; Optical Character Recognition; Text Extraction