National Repository of Grey Literature 2 records found  Search took 0.00 seconds. 
Large Language Models in Speech Recognition
Tomašovič, Martin ; Polok, Alexander (referee) ; Beneš, Karel (advisor)
Táto práca má za cieľ preskúmať, v akých podmienkach veľké jazykové modely vylepšujú prepisy automatického rozpoznávania reči. Konkrétne sa zameriava na preskórovanie n-najlepších hypotéz pomocou maskovaných aj autoregresívnych jazykových modelov. Pomocou nich sa každej hypotéze priradí skóre, ktoré sa následne interpoluje so skórami získanými zo systému prepisu reči. Tento postup som testoval naprieč datasetmi a rôznymi systémami pre prepis reči s rôznym nastavením. Výsledky vykazujú, že preskórovanie znižuje mieru chybovosti hypotéz získaných z modelov Wav2Vec 2.0 a Jasper. Dotrénovanie modelov sa overilo byť veľmi prospešné pri danej úlohe. Menšie dotrénované modely prekonali väčšie nedotrénované pri preskórovaní. Výsledky tejto práce prispievajú k lepšiemu porozumeniu, v akých podmienkach použiť jazykový model (autoregresívny, maskovaný) pri preskórovaní prepisov reči. Táto práca skúma vplyv dotrénovania, normalizácie a rozdelenia skóre z CTC dekodéra, na zníženie miery chybovosti slov.
Document Information Extraction
Janík, Roman ; Špaňhel, Jakub (referee) ; Hradiš, Michal (advisor)
S rozvojem digitalizace přichází potřeba analýzy historických dokumentů. Důležitou úlohou pro extrakci informací a dolování dat je rozpoznávání pojmenovaných entit. Cílem této práce je vyvinout systém pro extrakci informací z českých historických dokumentů, jako jsou noviny, kroniky a matriční knihy. Byl navržen systém pro extrakci informací, jehož vstupem jsou naskenované historické dokumenty zpracované OCR algoritmem. Systém je založen na modifikovaném modelu RoBERTa. Extrakce informací z českých historických dokumentů přináší výzvy v podobě nutnosti vhodného korpusu pro historickou Češtinu. Pro trénování systému byly použity korpusy Czech Named Entity Corpus (CNEC) a Czech Historical Named Entity Corpus (CHNEC), spolu s mým vlastním vytvořeným korpusem. Systém dosahuje úspěšnosti 88,85 F1 skóre na CNEC a 87,19 F1 skóre na CHNEC. Toto je zlepšení o 1,36 F1 u CNEC a 5,19 F1 u CHNEC a tedy nejlepší známé výsledky.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.