Original title:
Porovnání výsledků kookurenční databanky (CCDB) a kookurenční analýzy
Translated title:
Comparing results of the co-occurrence database (CCDB) and the co-occurrence analysis
Authors:
Křesťanová, Jitka ; Hejhalová, Věra (advisor) ; Šemelík, Martin (referee) Document type: Master’s theses
Year:
2017
Language:
ger Abstract:
[eng][cze] This paper deals with corpus linguistics. There are two applications under its scrutiny. Both of these applications are processing data from the corpus DeReKo via corpus-driven approach. It is a co-occurrence analysis and a Co-occurrence database. The aim of the work is to evaluate whether the results obtained by the co-occurrence analysis of the current scope of DeReKo are different from the results of the Co-occurrence database, which was created on a basis of a smaller scale corpus. In addition, this thesis offers illustrative examples of the use of both applications and the evaluation of their effectiveness, depending on the purpose of the research. The theoretical part of the thesis deals with the terminology of corpus linguistics and with the mentioned corpuses, which serve as a basis for the practical part of the thesis. The empirical part of the thesis consists of analyses of the randomly picked words (one from each word class) in both applications. The results confirm that the data obtained with Co-occurrence database and co-occurrence analysis are in many respects different and thus confirm the hypothesis that the corpus size plays a crucial role in the results. Both applications have their advantages and disadvantages. The paper offers a comprehensive overview and by doing so it...Předkládaná práce se zabývá korpusovou lingvistikou a blíže popisuje dvě aplikace, které zpracovávají data z korpusu DeReKo přístupem corpus-driven. Jedná se o kookurenční analýzu a Kookurenční databanku. Cílem práce je jednak zhodnotit, zda se výsledky získané kookurenční analýzou současného korpusu DeReKo liší od výsledků Kookurenční databanky, která byla vytvořena na korpusu menšího rozsahu. Kromě toho práce nabízí názorné příklady využití obou aplikací a zhodnocení jejich efektivnosti v závislosti na cíli výzkumu. Teoretická část práce pojednává o terminologii korpusové lingvistiky a o zmíněných korpusech, které jsou podkladem pro praktickou část práce. Empirickou část práce tvoří analýzy náhodně vybraných slov (jedno od každého slovního druhu) v obou aplikacích. Výsledky potvrzují, že data získaná pomocí Kookurenční databanky a kookurenční analýzy jsou v mnoha ohledech odlišná a potvrzují tak hypotézu, že velikost korpusu hraje ve výsledcích zásadní roli. Obě aplikace mají svá pozitiva i negativa. Práce nabízí jejich ucelený přehled a poskytuje tak uživateli návod, jak s oběma aplikacemi pracovat co nejefektivněji.
Keywords:
analysis; CCDB; co-occurrence analysis; co-occurrence database; corpus; corpus linguistics; DeReKo; IDS Mannheim; Analyse; CCDB; DeReKo; IDS Mannheim; Kookkurrenzanalyse; Kookkurrenzdatenbank; Korpus; Korpuslinguistik
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/93080