Original title:
Vytěžování textu ze strojově psaných dokumentů
Translated title:
Character recognition of machine-written documents
Authors:
Kindermann, Hubert ; Blažek, Jan (advisor) ; Kolomazník, Jan (referee) Document type: Bachelor's theses
Year:
2011
Language:
cze Abstract:
[cze][eng] V předložené práci řešíme problém extrakce a rozpoznání znaků z tištěných dokumentů digitalizovaných skenerem nebo fotoaparátem. Uvádíme způsob normalizace osvětlení dokumentů rezistentní vůči šumu. Pokračujeme extrakcí jednotlivých znaků z dokumentu a následně jejich rozpoznáním pomocí systému vícevrstvých neurálních sítí s dopředným šířením. Okrajově se zabýváme zpracováním výsledné množiny rozpoznaných symbolů, které je nezbytné pro další práci s vytěženým textem. Posledním krokem je korekce výstupu založená na okolích jednotlivých znaků. Podařilo se nám implementovat automatický systém obsahující všechny zmíněné komponenty.In the present thesis we solve the problem of symbol extraction and recognition from printed documents digitized by the scanner or camera. We introduce a noise resistant algorithm of document lighting normalization. We continue with the extraction of individual characters from the document and their recognition with a system of feedforward multilayer neural networks. We also focus on processing of the resulting set of recognized characters, which is necessary for further use of the extracted text. The last step is correction of the output based on surrounding letters of each character. We have successfully implemented an automatic system containing all the above components.
Keywords:
Lightning Normalization; Optical Character Recognition; Text Extraction; Extrakce textu; Normalizace osvětlení; Optické rozpoznávání znaků
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/38644