Název:
Rozpoznávání textu pomocí konvolučních sítí
Překlad názvu:
Optical Character Recognition Using Convolutional Networks
Autoři:
Csóka, Pavel ; Behúň, Kamil (oponent) ; Hradiš, Michal (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá tvorbou nových datových sad pro účely strojového učení rozpoznávání textu z fotografií a experimenty s konvolučními neuronovými sítěmi na těchto sadách. Popisuje architekturu konvolučních sítí, problémy rozpoznávání z fotografií a současné práce využívající tyto sítě. Dále tvorbu anotace datové sady fotografií stránek dokumentů, pořízených mobilními telefony, nazvané Mobile Page Photos. K anotaci je využit Tesseract OCR. Z této sady jsou vyříznutím znaků z fotografií vytvořeny dvě další. Jedná se o sady znaků dobře čitelných Mobile Nice Page Photos Characters a dobře i spatně až nečitelných Mobile Page Photos Characters, ve formátu datové sady číslic Street View House Numbers. S třemi vytvořenými modely konvolučních sítí jsou na datových sadách provedeny experimenty s rozpoznáváním textu, s jejichž pomocí je také odhadnuta chyba anotace.
This thesis aims at creation of new datasets for text recognition machine learning tasks and experiments with convolutional neural networks on these datasets. It describes architecture of convolutional nets, difficulties of recognizing text from photographs and contemporary works using these networks. Next, creation of annotation, using Tesseract OCR, for dataset comprised from photos of document pages, taken by mobile phones, named Mobile Page Photos. From this dataset two additional are created by cropping characters out of its photos formatted as Street View House Numbers dataset. Dataset Mobile Nice Page Photos Characters contains readable characters and Mobile Page Photos Characters adds hardly readable and unreadable ones. Three models of convolutional nets are created and used for text recognition experiments on these datasets, which are also used for estimation of annotation error.
Klíčová slova:
anotace datové sady; Caffe; konvoluční neuronová síť; Mobile Page Photos; Mobile Page Photos Characters; rozpoznávání textu z fotografií; Street View House Numbers; strojové učení; Tesseract OCR; tvorba datové sady; Caffe; convolutional neural network; dataset annotation; dataset creation; machine learning; Mobile Page Photos; Mobile Page Photos Characters; Street View House Numbers; Tesseract OCR; text recognition from photographs
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/61794