Název:
Klasifikace historických dokumentů pomocí hlubokých neuronových sítí
Překlad názvu:
Deep Neural Networks for Historical Document Classification
Autoři:
Pinkeová, Bettina ; Kohút, Jan (oponent) ; Kišš, Martin (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2023
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Cieľom tejto práce je vytvoriť systém na klasifikáciu historických dokumentov. Ide konkrétne o klasifikáciu dokumentov podľa miesta vzniku. V práci je navrhnutých niekoľko systémov na riešenie tohto problému. Prvý navrhnutý a realizovaný systém je založený na konvolučnej neurónovej sieti s mechanizmom self-attention, namiesto vrstvy združovania podľa priemeru. Ďaľší systém vychádza z modelu BEiT, ktorý je postavený na vizuálnom transformery. Model BEiT sa predtrénoval na úlohu modelovanie maskovaných obrázkov a následne dotrénoval na danú klasifikačnú úlohu. Systém založený na konvolučnej neurónovej sieti dosiahol presnosť 81.6% a systém založený na modelovaní maskovaných obrázkov dosiahol prenosť 82.9%. Systémy realizované v tejto práci prevýšili úspešnosťou zúčastnených systémov na konferencie ICDAR 2021.
The aim of this work is to create a system for historical documents classification . The task is specifically about classification of documents according to the place of origin. Several systems are proposed for solving this problem, in the work. The first designed and implemented system is based on a convolutional neural network with a self-attention mechanism instead of an average pooling layer. Another system is based on the BEiT model, which is built on a visual transformer. The BEiT model was pretrained on the task of masked image modelling and subsequently trained on the given classification task. The system based on convolutional neural network achieved an accuracy of 81.6% and the system based on masked image modelling achieved an accuracy of 82.9%. The systems implemented in this work, surpassed the systems participating in the ICDAR 2021 conference in terms of success.
Klíčová slova:
attention; convolutional neural networks; deep learning; document classification; historical documents; masked image modelling; transformer
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211957