Název:
Vyhledávání idiomů v textu
Překlad názvu:
Multi-Word Term Extraction
Autoři:
Seitler, Andrej ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cílem projektu je seznámení se z různymi způsoby vyhledávaní víceslovných výrazů v textu a vytvoření programu, který vyhledává výskyt idiomů ze vstupního souboru v korpusech. Program klade důraz na rychlost vyhledávání. Výstupem je nalezený idiom, počet výskytů v textu a výpis vět, kde lze daný idiom najít. Obsahuje knihovnu pro rozdělování textu na věty podle znaku konce vět.
The main goal of project is to study the ways how to find multi-word expressions in the text and to create a program, that is searching for occurence of idiomas from input file in corpus. Program lay stress on searching rate. The output consists of idioma found in corpus, rate of occurence in text and sentences, where can be idioma found. Project also have a library, which is used as sentence splitter.
Klíčová slova:
Daciuk; Daciukův konečný automat; hashovací tabulka; idiom; indexace slov; jazyk C; konečný automat; korpus; rozdělovač vět; vyhledávání idiomů; vyhledávání v~korpusu; C language; corpus; Daciuk; Daciuk's finite-state automata; finite-state automata; hash table; idioma; idioma searching; searching in corpus; sentence splitter; word indexing
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/55551