Název:
Analýza a vizualizace výstupu systému optického rozpoznávání znaků
Překlad názvu:
Analysis and visualization of OCR output
Autoři:
Nová, Kateřina ; Vidová Hladká, Barbora (vedoucí práce) ; Mírovský, Jiří (oponent) Typ dokumentu: Bakalářské práce
Rok:
2022
Jazyk:
eng
Abstrakt: [eng][cze] Optical Character Recognition (OCR) is a process of converting text from images to a machine-readable text. We run three OCR systems (Tesseract, Ocrad and GOCR) on an original multilingual OCR dataset and perform statistical and linguistic analysis of the results in order to compare the tested systems and investigate typical OCR errors. 1Optické rozpoznávání znaků (OCR) je proces převodu textu z obrázku do strojově čitelného textu. Spustili jsme tři OCR systémy (Tesseract, Ocrad a GOCR) na vytvořeném vícejazyčném datasetu a provedli statistickou a lingvistickou analýzu výsledků za účelem porovnání testovaných systémů a identifikování typických OCR chyb. 1
Klíčová slova:
optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka; Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing