Extrakce informací z osobních dokladů

Hudcovský, Erik

Táto práca sa zaoberá spracovaním informácií z osobných dokladov (občianskeho preukazu alebo cestovného pasu) do formy, ktorá je ďalej jednoducho spracovateľná pre počítače a celkovo pre IT odvetvie. Toto spracovanie je implementované aplikáciou, ktorú som v rámci mojej bakalárskej práce vypracoval. Aplikácia obsahuje na vstupe naskenovaný doklad, typ dokladu a formu požadovaného výstupu. Na výstupe dostaneme typ dokladu v požadovanom formáte. Celá aplikácia používa ku svojmu fungovaniu externý OCR nástroj (OpticalCharacter Recognition, v preklade Optické rozoznávanie znakov), ktorý je implementovaný tak, aby sa dal čo najjednoduchšie nahradiť iným OCR nástrojom. V mojej aplikácií som použil Tesseract. Tento OCR nástroj je v rámci bezplatných OCR nástrojov ten najjednoduchší a najpresnejší zároveň. Taktiež má stále silnú podporu komunity a je naďalej rozvíjaný. V tejto práci som sa taktiež venoval jeho testovaniu, ako na mnou vytvorených vzorkách textu, tak aj na reálnych skenoch dokladov. Aplikácia je tiež spracovaná ako inštalačný balíček, takže môže byť jednoducho importovaná do iných projektov. Celá aplikácia je vystavená ako OpenSource na GitHube pod slobodnou licenciou MIT.

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři