Název:
Syntaktická analýza textů se střídáním kódů
Překlad názvu:
Syntaktická analýza textů se střídáním kódů
Autoři:
Ravishankar, Vinit ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent) Typ dokumentu: Diplomové práce
Rok:
2018
Jazyk:
eng
Abstrakt: [eng][cze] (English) Vinit Ravishankar July 2018 The aim of this thesis is twofold; first, we attempt to dependency parse existing code-switched corpora, solely by training on monolingual dependency treebanks. In an attempt to do so, we design a dependency parser and ex- periment with a variety of methods to improve upon the baseline established by raw training on monolingual treebanks: these methods range from treebank modification to network modification. On this task, we obtain state-of-the- art results for most evaluation criteria on the task for our evaluation language pairs: Hindi/English and Komi/Russian. We beat our own baselines by a sig- nificant margin, whilst simultaneously beating most scores on similar tasks in the literature. The second part of the thesis involves introducing the relatively understudied task of predicting code-switching points in a monolingual utter- ance; we provide several architectures that attempt to do so, and provide one of them as our baseline, in the hopes that it should continue as a state-of-the-art in future tasks. 1Vinit Ravishankar Červenec 2018 Tato diplomová práce si klade dva cíle. Za prvé, snažíme se zkonstruovat závislostní syntaktický analyzátor (parser), který lze aplikovat na korpusy se střídáním kódů, přestože byl natrénován pouze s použitím jednojazyčných ko- rpusů. Kromě vlastní implementace parseru tedy experimentujeme se škálou metod, které se snaží vylepšit naivní výsledek (baseline), získaný prostým natrénováním modelu na jednojazyčných korpusech. Tyto metody zahrnují modifikaci korpusů a modifikaci neuronových sítí uvnitř parseru. Účinnost parseru vyhodnocujeme na dvou jazykových párech: hindština/angličtina a komijština/ruština. Pro většinu evaluačních kritérií se nám na těchto testo- vacích datech podařilo dosáhnout nejlepšího známého výsledku. Významně jsme překonali námi stanovený naivní výsledek, jakož i většinu publikovaných výsledků pro podobné úlohy v odborné literatuře. Druhá část práce se věnuje dosud málo prozkoumané úloze predikce pozic v jednojazyčné výpovědi, kde by mohlo dojít k přepnutí kódu. Navrhujeme několik architektur, které takové body označují, doufajíce, že se stanou výchozím bodem pro budoucí výzkum. 1
Klíčová slova:
střídání kódů; syntaktická analýza; treebank; universal dependencies; závislostní analýza; code switching; dependency parsing; parsing; treebank; universal dependencies