Original title:
Analýza a vizualizace výstupu systému optického rozpoznávání znaků
Translated title:
Analysis and visualization of OCR output
Authors:
Nová, Kateřina ; Vidová Hladká, Barbora (advisor) ; Mírovský, Jiří (referee) Document type: Bachelor's theses
Year:
2022
Language:
eng Abstract:
[eng][cze] Optical Character Recognition (OCR) is a process of converting text from images to a machine-readable text. We run three OCR systems (Tesseract, Ocrad and GOCR) on an original multilingual OCR dataset and perform statistical and linguistic analysis of the results in order to compare the tested systems and investigate typical OCR errors. 1Optické rozpoznávání znaků (OCR) je proces převodu textu z obrázku do strojově čitelného textu. Spustili jsme tři OCR systémy (Tesseract, Ocrad a GOCR) na vytvořeném vícejazyčném datasetu a provedli statistickou a lingvistickou analýzu výsledků za účelem porovnání testovaných systémů a identifikování typických OCR chyb. 1
Keywords:
Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing; optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/176038