Název:
Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat
Překlad názvu:
Domain Specific Data Crawling for Language Model Adaptation
Autoři:
Gregušová, Sabína ; Švec, Ján (oponent) ; Karafiát, Martin (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2022
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cieľom práce je implementovať systém pre automatickú adaptáciu jazykového modelu pre Phonexia ASR systém. Systém prijíma vstupný súbor, ktorý analyzuje a vyberie vhodné výrazy pre webové vyhľadávanie. Každé webové vyhľadávanie prináša množinu dokumentov, ktoré podstupujú čistenie a filtrovanie. Výsledný webový korpus sa zmieša s Phonexia modelom a vykoná sa evaluácia. Pre odhad optimálnych parametrov boli vykonané viaceré experimenty pre hindštinu, češtinu a mandarínsku čínštinu. Výsledky experimentov boli pozitívne a implementovaný systém bol schopný znížiť perplexitu a Word Error Rate vo väčšine experimentov.
The goal of this thesis is to implement a system for automatic language model adaptation for Phonexia ASR system. System expects input in the form of source that, which is analysed and appropriate terms for web search are chosen. Every web search results in a set of documents that undergo cleaning and filtering procedures. The resulting web corpora is mixed with Phonexia model and evaluated. In order to estimate the most optimal parameters, I conducted 3 sets of experiments for Hindi, Czech and Mandarin. The results of the experiments were very favourable and the implemented system managed to decrease perplexity and Word Error Rate in most cases.
Klíčová slova:
adaptácia jazykového modelu; automatické prehľadávanie webu; automatické rozpoznávanie reči; automatické vyhodnotenie webových dokumentov; automatické čistenie webových dokumentov; jazykový model; speech-to-text; automatic assessment of web documents; automatic speech recognition; automatic web document scraping; automatic web search; language model; language model adaptation; speech-to-text
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/207465