Original title:
Vyhledávání idiomů v textu
Translated title:
Multi-Word Term Extraction
Authors:
Seitler, Andrej ; Schmidt, Marek (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem projektu je seznámení se z různymi způsoby vyhledávaní víceslovných výrazů v textu a vytvoření programu, který vyhledává výskyt idiomů ze vstupního souboru v korpusech. Program klade důraz na rychlost vyhledávání. Výstupem je nalezený idiom, počet výskytů v textu a výpis vět, kde lze daný idiom najít. Obsahuje knihovnu pro rozdělování textu na věty podle znaku konce vět.
The main goal of project is to study the ways how to find multi-word expressions in the text and to create a program, that is searching for occurence of idiomas from input file in corpus. Program lay stress on searching rate. The output consists of idioma found in corpus, rate of occurence in text and sentences, where can be idioma found. Project also have a library, which is used as sentence splitter.
Keywords:
C language; corpus; Daciuk; Daciuk's finite-state automata; finite-state automata; hash table; idioma; idioma searching; searching in corpus; sentence splitter; word indexing; Daciuk; Daciukův konečný automat; hashovací tabulka; idiom; indexace slov; jazyk C; konečný automat; korpus; rozdělovač vět; vyhledávání idiomů; vyhledávání v~korpusu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/55551