Klasifikace elektronických dokumentů s využitím shlukové analýzy

Ševčík, Radim

Současná doba je charakteristická nebývalým kumulováním informací, ať už co do množství, tak i komplexity. Většina z nich je dostupná v digitální formě a lze je analyzovat pomocí metod shlukové analýzy. Na kolekci 20 Newsgroups jsme se pokusili klasifikovat elektronické dokumenty na základě obsahu. Cílem bylo hodnotit dostupné shlukovací metody v širokém spektru aplikací. Po transformaci do binární vektorové reprezentace jsme provedli řadu experimentů a sledovali hodnoty ukazatelů entropie, čistoty a doby provádění v aplikaci CLUTO. Pro menší počet shluků si nejlépe vedla metoda přímá (obecně nehierarchická), pro větší metoda opakované bisekce (divizivní). Aglomerativní přístup nebyl úspěšný. Modelováním jsme určili optimální počet shluků na 10. Pro toto řešení jsme do detailu rozebrali vlastnosti jednotlivých shluků při použití metody opakované bisekce a kriteriální funkce i2. V budoucnu by bylo vhodné se zaměřit na možnost realizace binárního shlukování pomocí některého dostupného programovacího jazyka, jako je např. Perl nebo C++. Závěry práce by mohly najít uplatnění mezi webovými vývojáři vyhledávačů nebo správci elektronických katalogů.

guest :: login Digital Repository
		Search		Submit		Help		About