Název:
Sumarizace dokumentů na webu
Překlad názvu:
Summarization of Documents from the Web
Autoři:
Škurla, Ján ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tématem této diplomové práce je sumarizace dokumentu na webu. Nejdříve se věnuje problematice získávání textu z webu pomocí wrapperu. Je zde uveden přehled jednotlivých wrapperu použitých pro inspiraci k budoucí implementaci. Práce také obsahuje jednotlivé metody tvorby souhrnu (Luhnova, Edmundsonova a KPC) z textových dat. Součástí práce je návrh a implementace aplikace na extrakci textových dat s následnou tvorbou souhrnu. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing.
Topic of this master's thesis is a summarization of the documents on the web. First, it deals with the issues of acquiring text from the web using wrapper. An overview of wrappers used as an inspiration for the future implementation is stated. This paper also includes various methods for creating summary (Luhn`s, Edmundson`s and KPC) from the text data. Application design for the text data extraction and summarization is also part of this paper. Application is based on Java platform and Swing graphic library.
Klíčová slova:
Edmundson; Extrakce textu z WWW; HTML wrapper; Java; KPC; Kupiec; Luhn; sumarizace textu; Edmundson; HTML wrapper; Java; KPC; Kupiec; Luhn; Text mining from web; text summarization
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53647