Název:
Rozpoznávání a klasifikace učebnic pomocí hlubokého učení
Překlad názvu:
Recognition and classification of textbooks by deep learning
Autoři:
Vondrák, David ; Pecina, Pavel (vedoucí práce) ; Novák, Michal (oponent) Typ dokumentu: Diplomové práce
Rok:
2022
Jazyk:
cze
Abstrakt: [cze][eng] Cílem práce bylo použití hlubokého učení k rozpoznávání učebnic a jejich klasifikaci do vyučovacích předmětů a úrovní, a to na základě textových údajů, jako je název knihy, autor, nakladatel a stručný popis obsahu. Jako součást práce formulujeme vlastní definici učebnice, vytváříme dataset pomocí extrakce údajů ze zdrojů dostupných na internetu a ručně anotujeme trénovací a testovací mno- žinu dat. Pro klasifikaci používáme jako baseline naivní bayesovský klasifikátor, z neuronových sítí pak konvoluční a rekurentní architekturu i jejich kombinace. Porovnáváme také různý způsob reprezentace dat vektory (tzv. word embedding) a dosažené výsledky podrobně analyzujeme. Výsledný nejlepší model dosahuje na testovacích datech u všech tří úloh vysokých úspěšností a nabízí se tak možnost jeho uplatnění v praxi. 1The aim of the thesis was to use deep learning methods for recognizing text- books and classifying their subject and level, based on text parameters, like name of the book, author, publisher or brief content description. As part of the thesis, we formulate custom definition of textbook, create a dataset by extracting data from source available on the internet and manually label train and test dataset. We use naive bayes classifier as a baseline and then neural networks with con- volutional, recurrent or combined architectures. We compare various methods of representing data with vectors (word embedding) and analyze the results in de- tail. Resulting best model reaches high accuracy in all three tasks which suggests the possibility of its application in practice. 1
Klíčová slova:
hluboké učení|klasifikace knih|neuronové sítě|učebnice; deep learning|book classification|neural networks|textbook