Original title:
Reprezentace textu a její vliv na kategorizaci
Translated title:
Representation of Text and Its Influence on Categorization
Authors:
Šabatka, Ondřej ; Chmelař, Petr (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2010
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Diplomová práce se zabývá strojovým zpracováním textových dat. V teoretické části jsou popsány problémy související se zpracováním přirozeného jazyka a dále jsou představeny různé způsoby předzpracování a reprezentace textu. Práce se také blíže věnuje použití N-gramů jako rysů pro reprezentaci dokumentů a popisuje některé algoritmy sloužící pro jejich extrakci. Další část je pak věnována přehledu používaných klasifikačních metod. V rámci praktické části práce byla navržena a implementována aplikace sloužící pro předzpracování a vytváření různých reprezentací textových dat. V rámci experimentů je pak sledován vliv těchto reprezentací na úspěšnost klasifikačních algoritmů.
The thesis deals with machine processing of textual data. In the theoretical part, issues related to natural language processing are described and different ways of pre-processing and representation of text are also introduced. The thesis also focuses on the usage of N-grams as features for document representation and describes some algorithms used for their extraction. The next part includes an outline of classification methods used. In the practical part, an application for pre-processing and creation of different textual data representations is suggested and implemented. Within the experiments made, the influence of these representations on accuracy of classification algorithms is analysed.
Keywords:
categorization; classification algorithms; N-grams; representation of text; representation of text documents; Suffix tree algorithm; text mining; TF-IDF; algoritmus Sufixového stromu; dolování z textu; kategorizace; klasifikační metody; N-gramy; reprezentace textových dokumentů; reprezentace textu; TF-IDF
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/54406