Název:
Metody sumarizace textových dokumentů
Překlad názvu:
Methods of Text Document Summarization
Autoři:
Pokorný, Lubomír ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Diplomová práce se zabývá jednodokumentovou sumarizací textových dat. Část práce je věnována přípravě dat, která je tvořena hlavně normalizací. Uvedeny jsou v ní některé algoritmy stemizace a obsahuje i popis lematizace. Hlavní část práce je věnována Luhnově sumarizační metodě a jejímu rozšíření za pouţití slovníku WordNet. Popsána a implementována byla i Oswaldova metoda. Navrţená a implementovaná aplikace provádí automatickou tvorbu abstraktů za pouţití zmíněných metod. Byla provedena i sada experimentů, kterými byla ověřena správná funkčnost aplikace.
This thesis deals with one-document summarization of text data. Part of it is devoted to data preparation, mainly to the normalization. Listed are some of the stemming algorithms and it contains also description of lemmatization. The main part is devoted to Luhn"s method for summarization and its extension of use WordNet dictionary. Oswald summarization method is described and applied as well. Designed and implemented application performs automatic generation of abstracts using these methods. A set of experiments where developed, which verified correct functionality of the application and of extension of Luhn"s summarization method too.
Klíčová slova:
Abstrakt; frekvence termů; jednodokumentová sumarizace; klíčové slovo; komprese textu; lematizace; Luhnova sumarizační metoda; normalizace; Oswaldův experiment; Porterův algoritmus; stemizace; stop slova; term; WordNet.; Abstract; keyword; lemmatization; Luhn"s algorithm; normalization; one-document summarization; Oswald"s experiment; Porter algorithm; stemming; stop words; term; term frequency; text compression; WordNet.
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53586