Original title:
Rozpoznávání textu pomocí konvolučních sítí
Translated title:
Optical Character Recognition Using Convolutional Networks
Authors:
Csóka, Pavel ; Behúň, Kamil (referee) ; Hradiš, Michal (advisor) Document type: Master’s theses
Year:
2016
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá tvorbou nových datových sad pro účely strojového učení rozpoznávání textu z fotografií a experimenty s konvolučními neuronovými sítěmi na těchto sadách. Popisuje architekturu konvolučních sítí, problémy rozpoznávání z fotografií a současné práce využívající tyto sítě. Dále tvorbu anotace datové sady fotografií stránek dokumentů, pořízených mobilními telefony, nazvané Mobile Page Photos. K anotaci je využit Tesseract OCR. Z této sady jsou vyříznutím znaků z fotografií vytvořeny dvě další. Jedná se o sady znaků dobře čitelných Mobile Nice Page Photos Characters a dobře i spatně až nečitelných Mobile Page Photos Characters, ve formátu datové sady číslic Street View House Numbers. S třemi vytvořenými modely konvolučních sítí jsou na datových sadách provedeny experimenty s rozpoznáváním textu, s jejichž pomocí je také odhadnuta chyba anotace.
This thesis aims at creation of new datasets for text recognition machine learning tasks and experiments with convolutional neural networks on these datasets. It describes architecture of convolutional nets, difficulties of recognizing text from photographs and contemporary works using these networks. Next, creation of annotation, using Tesseract OCR, for dataset comprised from photos of document pages, taken by mobile phones, named Mobile Page Photos. From this dataset two additional are created by cropping characters out of its photos formatted as Street View House Numbers dataset. Dataset Mobile Nice Page Photos Characters contains readable characters and Mobile Page Photos Characters adds hardly readable and unreadable ones. Three models of convolutional nets are created and used for text recognition experiments on these datasets, which are also used for estimation of annotation error.
Keywords:
Caffe; convolutional neural network; dataset annotation; dataset creation; machine learning; Mobile Page Photos; Mobile Page Photos Characters; Street View House Numbers; Tesseract OCR; text recognition from photographs; anotace datové sady; Caffe; konvoluční neuronová síť; Mobile Page Photos; Mobile Page Photos Characters; rozpoznávání textu z fotografií; Street View House Numbers; strojové učení; Tesseract OCR; tvorba datové sady
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/61794