Original title:
Metody sumarizace textových dokumentů
Translated title:
Methods of Text Document Summarization
Authors:
Pokorný, Lubomír ; Očenášek, Pavel (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Diplomová práce se zabývá jednodokumentovou sumarizací textových dat. Část práce je věnována přípravě dat, která je tvořena hlavně normalizací. Uvedeny jsou v ní některé algoritmy stemizace a obsahuje i popis lematizace. Hlavní část práce je věnována Luhnově sumarizační metodě a jejímu rozšíření za pouţití slovníku WordNet. Popsána a implementována byla i Oswaldova metoda. Navrţená a implementovaná aplikace provádí automatickou tvorbu abstraktů za pouţití zmíněných metod. Byla provedena i sada experimentů, kterými byla ověřena správná funkčnost aplikace.
This thesis deals with one-document summarization of text data. Part of it is devoted to data preparation, mainly to the normalization. Listed are some of the stemming algorithms and it contains also description of lemmatization. The main part is devoted to Luhn"s method for summarization and its extension of use WordNet dictionary. Oswald summarization method is described and applied as well. Designed and implemented application performs automatic generation of abstracts using these methods. A set of experiments where developed, which verified correct functionality of the application and of extension of Luhn"s summarization method too.
Keywords:
Abstract; keyword; lemmatization; Luhn"s algorithm; normalization; one-document summarization; Oswald"s experiment; Porter algorithm; stemming; stop words; term; term frequency; text compression; WordNet.; Abstrakt; frekvence termů; jednodokumentová sumarizace; klíčové slovo; komprese textu; lematizace; Luhnova sumarizační metoda; normalizace; Oswaldův experiment; Porterův algoritmus; stemizace; stop slova; term; WordNet.
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53586