Název:
Identifikace rodného jazyka cizinců mluvících česky
Překlad názvu:
Native Language Identification of L2 Speakers of Czech
Autoři:
Tydlitátová, Ludmila ; Hana, Jiří (vedoucí práce) ; Vidová Hladká, Barbora (oponent) Typ dokumentu: Bakalářské práce
Rok:
2016
Jazyk:
eng
Abstrakt: [eng][cze] Native Language Identification is the task of identifying an author's na- tive language based on their productions in a second language. The absolute majority of previous work has focused on English as the second language. In this thesis, we work with 3,715 essays written in Czech by non-native speakers. We use machine learning methods to determine whether an au- thors native language belongs to the Slavic language group. By training models with different feature and parameter settings, we were able to reach an accuracy of 78%. 1Cílem identifikace rodného jazyka je rozpoznat autorův rodný jazyk na základě jeho projevu ve druhém jazyce. Tímto druhým jazykem je v naprosté většině dosavadního výzkumu angličtina. V této bakalářské práci používáme 3 715 textů, které jsou napsány v češtině nerodilými mluvčími. Metodami strojového učení určujeme, zda autorův rodný jazyk patří mezi slovanské jazyky. Pomocí nejlepších modelů dosahujeme při klasifikaci úspěšnosti 78%. 1
Klíčová slova:
Identifikace rodného jazyka; NLI; NLP; počítačová lingvistika; strojové učení; computational linguistics; machine learning; Native Language Identification; NLI; NLP