Název:
Zpracování turkických jazyků
Překlad názvu:
Processing of Turkic Languages
Autoři:
Ciddi, Sibel ; Zeman, Daniel (vedoucí práce) ; Hlaváčová, Jaroslava (oponent) Typ dokumentu: Diplomové práce
Rok:
2014
Jazyk:
eng
Abstrakt: [eng][cze] Title: Processing of Turkic Languages Author: Sibel Ciddi Department: Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University in Prague Supervisor: RNDr. Daniel Zeman, Ph.D. Abstract: This thesis presents several methods for the morpholog- ical processing of Turkic languages, such as Turkish, which pose a specific set of challenges for natural language processing. In order to alleviate the problems with lack of large language resources, it makes the data sets used for morphological processing and expansion of lex- icons publicly available for further use by researchers. Data sparsity, caused by highly productive and agglutinative morphology in Turkish, imposes difficulties in processing of Turkish text, especially for meth- ods using purely statistical natural language processing. Therefore, we evaluated a publicly available rule-based morphological analyzer, TRmorph, based on finite state methods and technologies. In order to enhance the efficiency of this analyzer, we worked on expansion of lexicons, by employing heuristics-based methods for the extraction of named entities and multi-word expressions. Furthermore, as a prepro- cessing step, we introduced a dictionary-based recognition method for tokenization of multi-word expressions. This method complements...Název: Zpracování turkických jazyků Autor: Sibel Ciddi Katedra: Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze Vedoucí diplomové práce: RNDr. Daniel Zeman, Ph.D. Abstrakt: Tato práce představuje a na příkladu turečtiny demon- struje několik metod morfologického zpracování vhodných pro tur- kické jazyky, jejichž počítačové zpracování přináší sadu specifických problémů. Přínosem práce je také značné rozšíření lexikální databáze a souvisejících dat potřebných pro morfologickou analýzu a syntézu; tato data jsou nyní volně dostupná veřejnosti. S ohledem na vysoce produktivní a aglutinační tureckou morfologii a s ní spojenou řídkost dat byl omezený rozsah slovníku významnou překážkou počítačového zpracování jazyka, zvláště pokud jde o zpracování statistickými me- todami. Proto jsme důkladně otestovali a vyhodnotili veřejně do- stupný, na konečných převodnících založený morfologický analyzátor TRmorph. Zaměřili jsme se na rozšíření záběru a slovníku tohoto ana- lyzátoru. Za tím účelem jsme navrhli heuristické metody pro získávání pojmenovaných entit a víceslovných výrazů. Další vylepšení spočívá ve slovníkovém rozpoznávání...
Klíčová slova:
konečný automat; konečný převodník; morfologická a lexikální nejednoznačnost; morfologická analýza; rozpoznávání pojmenovaných entit; rozpoznávání víceslovných výrazů; and multi-word expressions; finite-state automata; finite-state transducer; lexical ambiguity; morphological & morphological analysis; recognition and tokenization of named entities