Název:
OCR pro tabulková data
Překlad názvu:
OCR for tabular data
Autoři:
Tódová, Lucia ; Kratochvíl, Miroslav (vedoucí práce) ; Šefl, Vít (oponent) Typ dokumentu: Bakalářské práce
Rok:
2019
Jazyk:
eng
Abstrakt: [eng][cze] Table recognition is an important tool for digitalizing documents that con- tain tabular data, which often occur in areas of administration, finances and education. This thesis re-uses existing optical character recognition software to construct a new table recognition algorithm that aims to simplify the digitaliza- tion of diverse document types. The resulting algorithm achieves comparable or better results than currently available open-source software. Thesis additionally reviews common methods of OCR software implementation, and measures the influence of image preprocessing quality on the outcome of the table recognition. 1Rozpoznávanie tabuliek je dôležitým nástrojom pre digitalizáciu tabu- ľkových dokumentov, ktoré sa bežne využívajú v oblastiach administratívy, bankovníctva a vzdelávania. Cieľom práce je za pomoci existujúceho soft- véru na optické rozpoznávanie znakov (OCR) implementovať nový algoritmus na rozpoznávanie tabuliek pre zjednodušenie digitalizácie rôznorodých doku- mentov. V porovnaní s dnešnými open-source softvérmi dosahuje výsledný algoritmus porovnateľné alebo lepšie výsledky. Práca navyše dokumentuje rôzne implementácie OCR a meria vplyv kvality predspracovania obrázku na rozpoznávanie tabuliek.
Klíčová slova:
archivace; digitalizace; OCR; účetní data; accounting data; archivation; digitalization; OCR