Národní úložiště šedé literatury Nalezeno 6 záznamů.  Hledání trvalo 0.01 vteřin. 
Aligning pre-trained models for spoken language translation
Sedláček, Šimon ; Beneš, Karel (oponent) ; Kesiraju, Santosh (vedoucí práce)
In this work, we investigate a novel approach to end-to-end speech translation (ST) by leveraging pre-trained models for automatic speech recognition (ASR) and machine translation (MT) and connecting them with a small connector module (Q-Former, STE). The connector bridges the gap between the speech and text modalities, transforming the ASR encoder embeddings into the latent representation space of the MT encoder. During training, the foundation ASR and MT models are frozen, and only the connector parameters are tuned, optimizing for the ST objective. We train and evaluate our models on the How2 English to Portuguese ST dataset. In our experiments, aligned systems outperform our cascade ST baseline while utilizing the same foundation models. Additionally, while keeping the size of the connector module constant and small in comparison (10M parameters), increasing the size and capability of the ASR encoder and MT decoder universally improves translation results. We find that the connectors can also serve as domain adapters for the foundation models, significantly improving translation performance in the aligned ST setting, compared even to the base MT scenario. Lastly, we propose a pre-training procedure for the connector, with the potential for reducing the amount of ST data required for training similar aligned systems.
Machine Translation Using Syntactic Analysis
Popel, Martin ; Žabokrtský, Zdeněk (vedoucí práce) ; Ircing, Pavel (oponent) ; Čmejrek, Martin (oponent)
Strojový překlad s využitím syntaktické analýzy Martin Popel Tato práce popisuje zlepšení anglicko-českého a česko-anglického strojo- vého překladu pomocí metod, které lze použít i na další jazyky. V první části je popsáno několik zlepšení hloubkově-syntaktického překladače TectoMT, například rozšíření pro další jazyky a domény nebo implementace nového typu překladových modelů využívajících kontext a různé metody strojového učení. V druhé části je popsán neuronový překladač Transformer a jeho vy- lepšení. Po detailní analýze vlivu různých hyperparametrů, bylo optimali- zováno trénování systému tak, že dosáhl o 1.0 BLEU lepšího překladu než nejlepší systém v soutěži WMT2017. Využitím jednojazyčných dat cílového jazyka pomocí nového typu zpětného překladu bylo dosaženo dalšího zlep- šení kvality překladu o 2.8 BLEU. Využitím doménové adaptace zohledňující "překladštinu" (translationese) - tedy zohledněním toho, zda paralelní data jsou původně psána česky, nebo anglicky - byl výsledný systém vylepšen o dalších 0.2 BLEU. Tento výsledný neuronový překladač byl signifikantně lepší (p<0.05) než všechny ostatní anglicko-české a česko-anglické překladače v soutěži WMT2018. Podle výsledků ručního hodnocení byla kvalita tohoto strojového překladu dokonce vyšší než kvalita lidského referenčního překladu.
Robust Parsing of Noisy Content
Daiber, Joachim ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Ačkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)
Pedestrian Detector Domain Shift Robustness Evaluation, And Domain Shift Error Mitigation Proposal
Zemčík, Tomáš
This paper evaluates daytime to nighttime traffic image domain shift on Faster R-CNNand SSD based pedestrian and cyclist detectors. Daytime image trained detectors are applied on anewly compiled nighttime image dataset and their performance is evaluated against detectors trainedon both daytime and nighttime images. Faster R-CNN based detectors proved relatively robust, butstill clearly inferior to the models trained on nighttime images, the SSD based model proved noncompetitive.Approaches to the domain shift deterioration mitigation were proposed and future workoutlined.
Machine Translation Using Syntactic Analysis
Popel, Martin ; Žabokrtský, Zdeněk (vedoucí práce) ; Ircing, Pavel (oponent) ; Čmejrek, Martin (oponent)
Strojový překlad s využitím syntaktické analýzy Martin Popel Tato práce popisuje zlepšení anglicko-českého a česko-anglického strojo- vého překladu pomocí metod, které lze použít i na další jazyky. V první části je popsáno několik zlepšení hloubkově-syntaktického překladače TectoMT, například rozšíření pro další jazyky a domény nebo implementace nového typu překladových modelů využívajících kontext a různé metody strojového učení. V druhé části je popsán neuronový překladač Transformer a jeho vy- lepšení. Po detailní analýze vlivu různých hyperparametrů, bylo optimali- zováno trénování systému tak, že dosáhl o 1.0 BLEU lepšího překladu než nejlepší systém v soutěži WMT2017. Využitím jednojazyčných dat cílového jazyka pomocí nového typu zpětného překladu bylo dosaženo dalšího zlep- šení kvality překladu o 2.8 BLEU. Využitím doménové adaptace zohledňující "překladštinu" (translationese) - tedy zohledněním toho, zda paralelní data jsou původně psána česky, nebo anglicky - byl výsledný systém vylepšen o dalších 0.2 BLEU. Tento výsledný neuronový překladač byl signifikantně lepší (p<0.05) než všechny ostatní anglicko-české a česko-anglické překladače v soutěži WMT2018. Podle výsledků ručního hodnocení byla kvalita tohoto strojového překladu dokonce vyšší než kvalita lidského referenčního překladu.
Robust Parsing of Noisy Content
Daiber, Joachim ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Ačkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.