Název:
Metody extrakce informace z textových dokumentů
Překlad názvu:
Methods for Information Extraction in Text Documents
Autoři:
Sychra, Tomáš ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2008
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Získávání znalostí z textových dokumentů představuje podmnožinu obecného získávání dat - dataminingu. Textové dokumenty však mají vlastnosti odlišné od běžných databází. Tato práce obsahuje přehled metod použitelných pro dolování informací z textů. Nejpoužívanější dolovací úlohou je klasifikace. Popíši možné přístupy při klasifikování dokumentů. V závěru představím algoritmus Winnow, který by měl při klasifikaci dosahovat dobrých výsledků v porovnání s ostatními algoritmy. Součástí práce je i popis implementace algoritmu Winnow a přehled dosažených výsledků.
Knowledge discovery in text documents is part of data mining. However, text documents have different properties in comparison to regular databases. This project contains an overview of methods for knowledge discovery in text documents. The most frequently used task in this area is document classification. Various approaches for text classification will be described. Finally, I will present algorithm Winnow that should perform better than any other algorithm for classification. There is a description of Winnow implementation and an overview of experimental results.
Klíčová slova:
Balanced Winnow; extrakce; extrakce informace; kategorizace; klasifikace; lineární klasifikace; Positive Winnow; textové dokumenty; Winnow; Balanced Winnow; categorization; classification; information extraction; knowledge discovery; linear classification; Positive Winnow; text documents; Winnow
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53244