Original title:
Metody extrakce víceslovných výrazů z textu
Translated title:
Methods of multiword expression extraction from text
Authors:
Przywara, Česlav ; Schlesinger, Pavel (referee) ; Pecina, Pavel (advisor) Document type: Bachelor's theses
Year:
2008
Language:
cze Abstract:
[cze][eng] Cílem této práce je efektivní implementace metod (automatické) extrakce víceslovných spojení z textu, tak aby výsledný program dokázal zpracovat rozsáhlé textové korpusy o velikosti v řádu až miliard slov. Další důležitou funkcí programu je možnost ukládání kontextu pro všechny extrahované N-gramy. Pro účely práce je výsledný program implementován speciálně pro extrakci kolokací ze závislostní strukturou z Pražského závislostního korpusu (PDT), ale návrh programu umožňuje jeho snadné rozšíření.The goal of this thesis is an effective implementation of the methods of multiword expression extraction from text, so that designed program would be capable of processing large textual corpora containing up to billions of words. Additional function of the program is context tracing of extracted N-grams. For thesis purposes the program implementation is specially adjusted for collocation extraction from The Prague Dependency Treebank, but the program is designed in such manner that allows an easy future extensibility.
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/18581