Original title:
Klasifikace historických dokumentů pomocí hlubokých neuronových sítí
Translated title:
Deep Neural Networks for Historical Document Classification
Authors:
Pinkeová, Bettina ; Kohút, Jan (referee) ; Kišš, Martin (advisor) Document type: Master’s theses
Year:
2023
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Cieľom tejto práce je vytvoriť systém na klasifikáciu historických dokumentov. Ide konkrétne o klasifikáciu dokumentov podľa miesta vzniku. V práci je navrhnutých niekoľko systémov na riešenie tohto problému. Prvý navrhnutý a realizovaný systém je založený na konvolučnej neurónovej sieti s mechanizmom self-attention, namiesto vrstvy združovania podľa priemeru. Ďaľší systém vychádza z modelu BEiT, ktorý je postavený na vizuálnom transformery. Model BEiT sa predtrénoval na úlohu modelovanie maskovaných obrázkov a následne dotrénoval na danú klasifikačnú úlohu. Systém založený na konvolučnej neurónovej sieti dosiahol presnosť 81.6% a systém založený na modelovaní maskovaných obrázkov dosiahol prenosť 82.9%. Systémy realizované v tejto práci prevýšili úspešnosťou zúčastnených systémov na konferencie ICDAR 2021.
The aim of this work is to create a system for historical documents classification . The task is specifically about classification of documents according to the place of origin. Several systems are proposed for solving this problem, in the work. The first designed and implemented system is based on a convolutional neural network with a self-attention mechanism instead of an average pooling layer. Another system is based on the BEiT model, which is built on a visual transformer. The BEiT model was pretrained on the task of masked image modelling and subsequently trained on the given classification task. The system based on convolutional neural network achieved an accuracy of 81.6% and the system based on masked image modelling achieved an accuracy of 82.9%. The systems implemented in this work, surpassed the systems participating in the ICDAR 2021 conference in terms of success.
Keywords:
attention; convolutional neural networks; deep learning; document classification; historical documents; masked image modelling; transformer
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/211957