Národní úložiště šedé literatury Nalezeno 29 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Vision transformery pro rozpoznávání tváří
Strýček, Šimon ; Kišš, Martin (oponent) ; Špaňhel, Jakub (vedoucí práce)
Tato práce se zabývá aplikací architektur neuronových sítí na bázi vision transformer (ViT) v oblasti rozpoznávání tváří. Práce se soustředí na průzkum existujících moderních ViT architektur. To zahrnuje experimenty s existujícími implementacemi, alternativními druhy dat a hledání optimálních parametrů pro trénink. Cílem této práce je prokázat potenciál vision transformerů konkurovat již dlouho dominujícím konvolučním neuronovým sítím právě v tomto oboru. Výstupem je analýza provedených experimentů, demonstrace kladů a záporů moderních architektur ViT a nalezení optimálních podmínek pro jejich využití v úlohách rozpoznávání tváří.
Segmentation of logical units in text
Kostelník, Martin ; Kišš, Martin (oponent) ; Beneš, Karel (vedoucí práce)
The goal of this project is the topic segmentation of text into coherent units. It builds on the PERO-OCR software, aiming to improve the processing of Czech historical documents and information retrieval for librarians and scientists. This included the creation and annotation of a custom dataset comprised of 4044 pages from books, dictionaries, and periodicals. I propose an innovative approach treating segmentation as a line clustering problem. The method involves a two-stage process: initial detection of regions of interest containing text lines using the YOLOv8 model, followed by joining them using a graph neural network. This method achieves a V-measure of 77.93 %, 95.79 % and 90.23 % for books, dictionaries and periodicals, respectively.
Page Layout Analysis with Graph Neural Networks
Otčenáš, Matej ; Kišš, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
The aim of this work is to experimentally test the power of graph neural networks in the comprehensive analysis of document layout. In terms of document types, the focus is primarily on newspaper articles and historical writings, such as handwritten books or medieval manuscripts. These are characterized by the complexity of their layout, lacking a fixed structure or having highly segmented text. The work deals with the creation of suitable datasets for training and testing an approach for globally ordering the sequence of reading lines on a page and assigning each line to one of the defined classes. The research also involves creating an appropriate representation of a graph that captures relationships between individual components on the page and selecting a suitable graph neural network with the appropriate parameters. Finally, the different approaches are evaluated and compared on multiple metrics suitable for the given problem, and the findings are summarized with a discussion on possible enhancements and limitations.
Rozpoznávání ručně psaného textu pomocí konvolučních sítí
Sladký, Jan ; Kišš, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Tato práce se zabývá rozpoznáváním ručně psaného textu za pomoci konvolučních neuronových sítí. Ze současných metod byl vybrán model sítě skládající se z konvolučních a rekurentních sítí s Connectionist Temporal Classification. Do takovéhoto modelu byl následně implementován prvek Vertical Attention Module, který vybírá relevantní informace v každém sloupci odpovídající textu na obrázku. Tento modul byl následně pomocí experimentů porovnáván s dalšími možnostmi vertikální agregace mezi konvoluční a rekurentní sítí. Experimenty probíhaly na datové sadě obsahující přes 80 000 řádků textu z českých dopisů 20. století. Výsledky ukazují, že Vertical Attention Module dosahuje téměř vždy nejlepších výsledků na všech použitých typech konvolučních sítí. Výsledná síť dosáhla nejlepšího výsledku při chybě 8,9% na znak. Přínosem této práce je neuronová síť s nově zavedeným prvkem, která dokáže rozpoznávat řádky textu.
Odezírání ze rtů pomocí hlubokých neuronových sítí
Kadleček, Josef ; Kišš, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Tato práce se zabývá současnými metodami pro přepis řeči na text a odezírání ze rtů za pomoci neuronových sítí. Následně se zabývá podobností architektur neuronových sítí operujících nad zvukem a videem při rozpoznávání řeči a porovnává dostupné audiovizuální datové sady. Výsledkem práce je sada experimentů porovnávající různé zásahy do modelu a jejich dopad na výsledky. Dále je součástí implementace systému pro přepis řeči (CER: 12.6 %) a pro odezírání ze rtů (CER: 57,7 %). Architektury obou systémů jsou založeny na extrakci příznaků pomocí konvolučních vrstev. Za nimi následují rekurentní vrstvy LSTM, další řada konvolučních vrstev a hodnotící funkce CTC. 
Rozpoznávání textu s využitím informace o pisateli
Trněný, Matěj ; Kišš, Martin (oponent) ; Kohút, Jan (vedoucí práce)
Cílem práce je vytvořit neuronovou síť pro rozpoznání textu s využitím informace o pisateli. Pro tento účel byla vybrána metoda adversarial learning. Účinost teto metody byla ověřena experimentálně. Vytvořená síť by měla díky použité metodě adversarial learning dosahovat lepších výsledků na datech, která nejsou podobná datům obsaženým v trénovací sadě oproti stávající metodě single-task learning. Výsledná síť dosažená pomocí uvedené metody byla porovnána se současnou metodou rozpoznávání textu metodou single-task learning a multi-task learning. Síť implementující single-task learning dosahuje průměrné chyby při rozpoznávání znaku 7, 995%, síť implementující multi-task learning dosahuje průměrné chyby 7, 565% v porovnání se sítí využívající adversarial learning, která dosahuje úspěšnosti 7, 573%. V porovnání single-task learning dosahuje multi-task learning 5, 38% zlepšení a adversarial learning 5, 28%.
Multi-modální přepis textu
Kabáč, Michal ; Herout, Adam (oponent) ; Kišš, Martin (vedoucí práce)
Cieľom tejto práce je popísať a vytvoriť metódu pre korekciu výstupov rozpoznávača textu pomocou rozpoznávača reči. Práca popisuje prehľad súčasných metód pre rozpoznávanie textu a reči pomocou neurónových sietí. Popisuje tiež existujúce metódy prepájania výstupov dvoch modalít. V rámci práce je navrhnutých a implementovaných niekoľko prístupov pre korekciu rozpoznávačov, ktoré sú založené na algoritmoch, alebo neurónových sieťach. Ako najlepší prístup sa ukázal algoritmus založený na princípe prehľadávania výstupov rozpoznávačov zarovnaných pomocou levenshtainového zarovnania. Algoritmus prehľadáva výstupy v prípade že neistota znaku rozpoznávača textu je menšia ako predom zvolená hranica. V rámci práce bol ku textovým prepisom vytvorený anotačný server, pomocou ktorého sa robil zber nahrávok pre vyhodnotenie experimentov.
Konvoluční neuronové sítě pro bezpečnostní aplikace
Kišš, Martin ; Hradiš, Michal (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá návrhem a implementací aplikace pro rozpoznávání osob z bezpečnostní kamery. K rozpoznávání samostatného obličeje jsou zde použity konvoluční neuronové sítě, které vytváří reprezentaci daného obličeje, a algoritmus k-nejbližších sousedů, který slouží ke klasifikaci. K následnému rozpoznávání sekvence obličejů jsou zde implementovány tři algoritmy. Na testovacích datech dosahovala úspěšnost rozpoznávání až 75 %.
Zvyšování konzistence v datových sadách pro rozpoznávání textu
Tvarožný, Matúš ; Hradiš, Michal (oponent) ; Kišš, Martin (vedoucí práce)
Táto práca sa zaoberá zvyšovaním konzistencie dátových sád pre rozpoznávanie textu. V tejto práci sú popísane problémy, ktoré nekonzistenciu spôsobujú a následne sú predstavené riešenia na jej odstránenie. Skúmaný je vplyv vlastností polygónov definujúcich ohraničenie riadkov a teda to ako upravená verzia dátovej sady, ktorá je zložená z ideálnych variant riadkov ovplyvnila presnosť modelu. Ďalej sa práca zameriava na detekciu a následné odstránenie alebo upravenie riadkov, ktorých prepis ground truth nekorešponduje so skutočným textom, ktorý sa na nich nachádza. Experimentovaním sa ukázalo, že odstránenie vizuálnej nekonzistencie na trénovacej sade nemá zásadný vplyv na natrénovanosť modelu, za to poupravením testovacej sady sa presnosť OCR modelu zlepšila o 1.1\% CER. Upravením dátovej sady tak, aby neobsahovala navzájom nekonzistentné dvojice rozpoznávaného textu a príslušnej ground truth, sa model po opätovnom natrénovaní zlepšil maximálne len o 0.2\% CER. Hlavným zistením tejto práce je predovšetkým preukázaný priaznivý účinok odstránenia nekonzistencie na testovacích sadách, vďaka ktorému je možné zistiť reálnejšiu chybovosť OCR modelu.
Online nástroj pro rozpoznávání tabulek v obrázcích
Inhliziian, Bohdan ; Kišš, Martin (oponent) ; Herout, Adam (vedoucí práce)
Cilem teto prace je resit problem rozpoznavani tabulek v obrazcich a prevest vyfocenou tabulku, nahranou na webove rozhrani, do XLSX souboru. Program je vytvoreny s durazem na jednoduchost v pouziti potencialnim uzivatelem. Pro detekce car byl pouzit algoritmus Probablistic Hough Transform a pomoci nastroju Tesseract byla provedena detekce textu v bunkach. Program byl umistneni na Amazon AWS a pristup k nemu webova aplikace dela pomoci API. Byl vytvoren vlastni algoritmus pro spojeni car do jedne cary a taky algoritmus pro odstraneni car, ktere nepatri do tabulky a chybne detekovanych car (text, sum). Vytvorene reseni poskytuje moznost uzivatelum, ktere rucne prepisuji data z tabulek v dokumentech, knihach, vyuzit program, ktery dela vsechno automaticky, je potreba jen nahrat foto do webove aplikace.

Národní úložiště šedé literatury : Nalezeno 29 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.