Original title:
Algoritmy pro shlukování textových dat
Translated title:
Text data clustering algorithms
Authors:
Sedláček, Josef ; Burget, Radim (referee) ; Karásek, Jan (advisor) Document type: Master’s theses
Year:
2011
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato diplomová práce se zabývá problematikou dolování textových dat. Je zde popsána teorie potřebná ke shlukování textových dokumentů a také algoritmy, které se při shlukování využívají. Podle této teorie je pak vytvořena aplikace pro shlukování textových dat. Aplikace je vytvořena v programovacím jazyku Java a obsahuje tři metody používané při shlukování. Uživatel si tak sám může vybrat metodu, podle které chce kolekci dokumentů shlukovat. Implementované metody jsou K medoids, BiSec K medoids a SOM (self organization map). Součástí aplikace je také vytvoření validační množiny, pomocí které jsou algoritmy testovány. V závěru jsou pak algoritmy porovnány podle dosažených výsledků.
The thesis deals with text mining. It describes the theory of text document clustering as well as algorithms used for clustering. This theory serves as a basis for developing an application for clustering text data. The application is developed in Java programming language and contains three methods used for clustering. The user can choose which method will be used for clustering the collection of documents. The implemented methods are K medoids, BiSec K medoids, and SOM (self-organization maps). The application also includes a validation set, which was specially created for the diploma thesis and it is used for testing the algorithms. Finally, the algorithms are compared according to obtained results.
Keywords:
BiSec K means; BiSec K medoids; clustering; clustering algorithms; data mining; document collection; K means; K medoids; SOM (selforganization map); term; BiSec K means; BiSec K medoids; data mining; K means; K medoids; kolekce dokumentu; shlukovací algoritmy; shlukováni; SOM(self organization map); term
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/1363