Název:
Metody extrakce víceslovných výrazů z textu
Překlad názvu:
Methods of multiword expression extraction from text
Autoři:
Przywara, Česlav ; Pecina, Pavel (vedoucí práce) ; Schlesinger, Pavel (oponent) Typ dokumentu: Bakalářské práce
Rok:
2008
Jazyk:
cze
Abstrakt: [cze][eng] Cílem této práce je efektivní implementace metod (automatické) extrakce víceslovných spojení z textu, tak aby výsledný program dokázal zpracovat rozsáhlé textové korpusy o velikosti v řádu až miliard slov. Další důležitou funkcí programu je možnost ukládání kontextu pro všechny extrahované N-gramy. Pro účely práce je výsledný program implementován speciálně pro extrakci kolokací ze závislostní strukturou z Pražského závislostního korpusu (PDT), ale návrh programu umožňuje jeho snadné rozšíření.The goal of this thesis is an effective implementation of the methods of multiword expression extraction from text, so that designed program would be capable of processing large textual corpora containing up to billions of words. Additional function of the program is context tracing of extracted N-grams. For thesis purposes the program implementation is specially adjusted for collocation extraction from The Prague Dependency Treebank, but the program is designed in such manner that allows an easy future extensibility.