Original title:
Klasifikace elektronických dokumentů s využitím shlukové analýzy
Translated title:
Classification of electronic documents using cluster analysis
Authors:
Ševčík, Radim ; Řezanková, Hana (advisor) ; Svátek, Vojtěch (referee) Document type: Master’s theses
Year:
2009
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Současná doba je charakteristická nebývalým kumulováním informací, ať už co do množství, tak i komplexity. Většina z nich je dostupná v digitální formě a lze je analyzovat pomocí metod shlukové analýzy. Na kolekci 20 Newsgroups jsme se pokusili klasifikovat elektronické dokumenty na základě obsahu. Cílem bylo hodnotit dostupné shlukovací metody v širokém spektru aplikací. Po transformaci do binární vektorové reprezentace jsme provedli řadu experimentů a sledovali hodnoty ukazatelů entropie, čistoty a doby provádění v aplikaci CLUTO. Pro menší počet shluků si nejlépe vedla metoda přímá (obecně nehierarchická), pro větší metoda opakované bisekce (divizivní). Aglomerativní přístup nebyl úspěšný. Modelováním jsme určili optimální počet shluků na 10. Pro toto řešení jsme do detailu rozebrali vlastnosti jednotlivých shluků při použití metody opakované bisekce a kriteriální funkce i2. V budoucnu by bylo vhodné se zaměřit na možnost realizace binárního shlukování pomocí některého dostupného programovacího jazyka, jako je např. Perl nebo C++. Závěry práce by mohly najít uplatnění mezi webovými vývojáři vyhledávačů nebo správci elektronických katalogů.The current age is characterised by unprecedented information growth, whether it is by amount or complexity. Most of it is available in digital form so we can analyze it using cluster analysis. We have tried to classify the documents from 20 Newsgroups collection in terms of their content only. The aim was to asses available clustering methods in a variety of applications. After the transformation into binary vector representation we performed several experiments and measured the values of entropy, purity and time of execution in application CLUTO. For a small number of clusters the best results offered the direct method (generally hierarchical method), but for more it was the repeated bisection (divisive). Agglomerative method proved not to be suitable. Using simulation we estimated the optimal number of clusters to be 10. For this solution we described in detail features of each cluster using repeated bisection method and i2 criterion function. In the future focus should be set on realisation of binary clustering with advantage of programming languages like Perl or C++. Results of this work might be of interest to web search engine developers and electronic catalogue administrators.
Keywords:
classification; clustering methods; document clustering; document-term binary data; information retrieval; binární data typu dokument-vlastnost; klasifikace; shluková analýza; shlukování dokumentů; získávání informací
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/21187