Original title:
Identifikace rodného jazyka cizinců mluvících česky
Translated title:
Native Language Identification of L2 Speakers of Czech
Authors:
Tydlitátová, Ludmila ; Hana, Jiří (advisor) ; Vidová Hladká, Barbora (referee) Document type: Bachelor's theses
Year:
2016
Language:
eng Abstract:
[eng][cze] Native Language Identification is the task of identifying an author's na- tive language based on their productions in a second language. The absolute majority of previous work has focused on English as the second language. In this thesis, we work with 3,715 essays written in Czech by non-native speakers. We use machine learning methods to determine whether an au- thors native language belongs to the Slavic language group. By training models with different feature and parameter settings, we were able to reach an accuracy of 78%. 1Cílem identifikace rodného jazyka je rozpoznat autorův rodný jazyk na základě jeho projevu ve druhém jazyce. Tímto druhým jazykem je v naprosté většině dosavadního výzkumu angličtina. V této bakalářské práci používáme 3 715 textů, které jsou napsány v češtině nerodilými mluvčími. Metodami strojového učení určujeme, zda autorův rodný jazyk patří mezi slovanské jazyky. Pomocí nejlepších modelů dosahujeme při klasifikaci úspěšnosti 78%. 1
Keywords:
computational linguistics; machine learning; Native Language Identification; NLI; NLP; Identifikace rodného jazyka; NLI; NLP; počítačová lingvistika; strojové učení
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/73979