Automatic Chord Recognition Using Deep Neural Networks
Nodžák, Petr ; Bidlo, Michal (referee) ; Vašíček, Zdeněk (advisor)
This work deals with automatic chord recognition using neural networks. The problem was separated into two subproblems. The first subproblem aims to experimental finding of most suitable solution for a acoustic model and the second one aims to experimental finding of most suitable solution for a language model. The problem was solved by iterative method. First a suboptimal solution of the first subproblem was found and then the second one. A total of 19 acoustic and 12 language models were made. Ten training datasets was created for acoustic models and three for language models. In total, over 200 models were trained. The best results were achieved on acoustic models represented by convolutional networks together with language models represented by recurent networks with LSTM modules.
Efficiency of deep convolutional neural networks on an elementary classification task
Prax, Jan ; Dobrovský, Ladislav (referee) ; Škrabánek, Pavel (advisor)
In this thesis deep convolutional neural networks models and feature descriptor models are compared. Feature descriptors are paired with suitable chosen classifier. These models are a part of machine learning therefore machine learning types are described in this thesis. Further these chosen models are described, and their basics and problems are explained. Hardware and software used for tests is listed and then test results and results summary is listed. Then comparison based on the validation accuracy and training time of these said models is done.
Convolutional Networks for Document Layout Analysis
Endrych, David ; Herout, Adam (referee) ; Kodym, Oldřich (advisor)
The goal of this thesis is to create a tool for analyzig the page layouts of text documents. The problem is solved by convolution neural networks. The architecture chosen in this thesis is the U-Net architecture. The cross entropy error function with weight map is used for train the network model. Paragraph regions are obtained throught connected component analysis. Experiments are evaluated using the Symmetric Best Dice object metric. Experiments have shown that it is better to use all paragraph edges than to focus only on vertical paragraph edges. In addition, experiments show that batche sampling strategies and adaptive resolution help to improve analysis results. The experiments also describe the application of separators, which is useful in analyzing multi-column documents.
Photo Noise Reduction Using Deep Neural Networks
Tichý, Jonáš ; Juránek, Roman (referee) ; Španěl, Michal (advisor)
Obrazový šum je fundamentálním problémem v digitální fotografii. Cílem této práce je studium redukce šumu ve fotografiích pomocí hlubokých neuronových sítí. Dvě vybrané metody založené na hlubokých neuronových sítích, DnCNN a BRDNet, byly implementovány a jejich výkon byl změřen v několika experimentech. Kromě toho byl navržen a proveden experiment na uživatelích s cílem vyhodnotit vnímanou kvalitu obrazu širokou veřejností. Experimenty ukázaly, že zatímco obě metody dosahují výborných výsledků v metrikách, jako je PSNR a SSIM, vnímaná vizuální kvalita ne vždy koreluje s numerickými metrikami. Výsledky prezentované v této práci zdůrazňují důležitost vhodných trénovacích dat a metrik kvality obrazu v odšumování digitálních fotografií.
Deep Neural Networks for Classifying Objects in an Image
Mlynarič, Tomáš ; Zemčík, Pavel (referee) ; Hradiš, Michal (advisor)
This paper deals with classifying objects using deep neural networks. Whole scene segmentation was used as main algorithm for the classification purpose which works with video sequences and obtains information between two video frames. Optical flow was used for getting information from the video frames, based on which features maps of a~neural network are warped. Two neural network architectures were adjusted to work with videos and experimented with. Results of the experiments show, that using videos for image segmentation improves accuracy (IoU) compared to the same architecture working with images.
Visual Car-Detection on the Parking Lots Using Deep Neural Networks
Stránský, Václav ; Veľas, Martin (referee) ; Rozman, Jaroslav (advisor)
The concept of smart cities is inherently connected with efficient parking solutions based on the knowledge of individual parking space occupancy. The subject of this paper is the design and implementation of a robust system for analyzing parking space occupancy from a multi-camera system with the possibility of visual overlap between cameras. The system is designed and implemented in Robot Operating System (ROS) and its core consists of two separate classifiers. The more successful, however, a slower option is detection by a deep neural network. A quick interaction is provided by a less accurate classifier of movement with a background model. The system is capable of working in real time on a graphic card as well as on a processor. The success rate of the system on a testing data set from real operation exceeds 95 %.
Document Quality Enhancement
Trčka, Jan ; Zemčík, Pavel (referee) ; Juránek, Roman (advisor)
The aim of this work is to increase the accuracy of the transcription of text documents. This work is mainly focused on texts printed on degraded materials such as newspapers or old books. To solve this problem, the current method and problems associated with text recognition are analyzed. Based on the acquired knowledge, the implemented method based on GAN network architecture is chosen. Experiments are a performer on these networks in order to find their appropriate size and their learning parameters. Subsequently, testing is performed to compare different learning methods and compare their results. Both training and testing is a performer on an artificial data set. Using implemented trained networks increases the transcription accuracy from 65.61 % for the raw damaged text lines to 93.23 % for lines processed by this network.
Semi-Supervised Training of Deep Neural Networks for Speech Recognition
Veselý, Karel ; Ircing, Pavel (referee) ; Lamel, Lori (referee) ; Burget, Lukáš (advisor)
V této dizertační práci nejprve prezentujeme teorii trénování neuronových sítí pro rozpoznávání řeči společně s implementací trénovacího receptu 'nnet1', který je součástí toolkitu s otevřeným kódem Kaldi. Recept se skládá z předtrénování bez učitele pomocí algoritmu RBM, trénování klasifikátoru z řečových rámců s kriteriální funkcí Cross-entropy a ze sekvenčního trénování po větách s kriteriální funkcí sMBR. Následuje hlavní téma práce, kterým je semi-supervised trénování se smíšenými daty s přepisem i bez přepisu. Inspirováni konferenčními články a úvodními experimenty jsme se zaměřili na několik otázek: Nejprve na to, zda je lepší konfidence (t.j. důvěryhodnosti automaticky získaných anotací) počítat po větách, po slovech nebo po řečových rámcích. Dále na to, zda by konfidence měly být použity pro výběr dat nebo váhování dat - oba přístupy jsou kompatibilní s trénováním pomocí metody stochastického nejstrmějšího sestupu, kde jsou gradienty řečových rámců násobeny vahou. Dále jsme se zabývali vylepšováním semi-supervised trénování pomocí kalibrace kofidencí a přístupy, jak model dále vylepšit pomocí dat se správným přepisem. Nakonec jsme navrhli jednoduchý recept, pro který není nutné časově náročné ladění hyper-parametrů trénování, a který je prakticky využitelný pro různé datové sady. Experimenty probíhaly na několika sadách řečových dat: pro rozpoznávač vietnamštiny s 10 přepsaným hodinami (Babel) se chybovost snížila o 2.5%, pro angličtinu se 14 přepsanými hodinami (Switchboard) se chybovost snížila o 3.2%. Zjistili jsme, že je poměrně těžké dále vylepšit přesnost systému pomocí úprav konfidencí, zároveň jsme ale přesvědčení, že naše závěry mají značnou praktickou hodnotu: data bez přepisu je jednoduché nasbírat a naše navrhované řešení přináší dobrá zlepšení úspěšnosti a není těžké je replikovat.
Synthetic Fingerprint Generation Using GAN
Dvořák, Jiří ; Drahanský, Martin (referee) ; Kanich, Ondřej (advisor)
Tato bakalářská práce se zabývá generováním syntetických otisků prstů za pomoci modelu založeném na principu generativních soupeřících sítí. Práce shrnuje základní teoretické informace z biometrie se zaměřením na otisky prstů. Zaobírá se také principem jednoho z populárních generátorů syntetických otisků prstů - nástrojem SFinGe. Práce představuje model postavený na hluboké konvoluční generativní soupeřící síti a představuje několik metod, které vedly ke zlepšení jeho výkonu. Vyhodnocení výsledků bylo provedeno výpočtem "Fréchet Inception Distance mezi vygenerovanými a existujími otisky. Dále byl vygenerován dataset obsahující 100 snímků. Ten byl vyhodnocen nástrojem NFIQ 2.0, který ukázal, že model je schopný generovat otisky prstů kvality srovnatelné s reálnými trénovacími daty.
Deep Neural Networks for Person Identification
Duban, Michal ; Herout, Adam (referee) ; Hradiš, Michal (advisor)
This master's thesis deals with design and implementation of convolutional neural networks used in person re-identification. Implemented convolutional neural networks were tested on two datasets CUHK01 a CUHK03. Results, comparable with state of the art methods were acheved on these datasets. Designed networks were implemented in Caffe framework.

