| |
|
Vyhodnocení stability jednotlivých metod i skupin metod výběru příznaků, který optimalizují kardinalitu podmnožiny příznaků
Somol, Petr ; Novovičová, Jana
Stabilita (robustnost) metod výběru příznaků je jedno z aktuálních témat diskutovaných v současné době, neboť má vliv na spolehlivost systémů strojového učení. Byly navrženy nové míry stability procesu výběru příznaků, které vyhodnocují celkový výskyt jednotlivých příznaků ve vybraných podmnožinách příznaků ne nutně stejné kardinality. Podrobně jsou studovány vlastnosti uvažovaných měr a na mnoha příkladech demonstrováno, jaké informace je možné získat o procesu výběru příznaků. V práci je také uvažován alternativní přístup k vyhodnocování výběru příznaků pomocí měr, které umožňují porovnat podobnost dvou procesů výběru příznaků
|
|
Má smysl vyvíjet nové metody výběru příznaků?
Somol, Petr ; Novovičová, Jana
Jedno z aktuálních témat diskutovaných v současné době ve vztahu k oboru rozpoznávání je otázka skutečné účinnosti moderních metod výběru příznaků. Výběr příznaků je stále zkoumaná oblast neboť může zlepšit jak účinnost tak i hospodárnost automatických rozhodovacích systémů v mnoha aplikačních oblastech, z nichž mezi nejdůležitější patří lékařská diagnostika. Výběr příznaků může také zlepšit účinnost klasifikátorů, navržených na základě omezeného množství dat, nebo přispět k interpretaci modelů. Zejména poslední dobou bylo vyvinuto mnoho metod a metodologií slibujících významné zlepšení. Nicméně objevila se také řada kritických příspěvků prohlašujících, že jednoduché staré nástroje jsou ve skutečnosti lepší než složité moderní metody, které, navzdory slibům, selhávají v reálných aplikacích. Ve zprávě zkoumáme toto tvrzení, ukazujeme několik ilustrativních příkladů, vyvozujeme závěry a doporučení týkající se očekávané účinnosti metod výběru příznaků.
|
|
Application of finite mixtures to text document classification
Novovičová, Jana ; Malík, Antonín
Finite mixture modelling of class-conditional distributions is a standard method in a statistical pattern recognition. We proposed to use the mixture of multinomial distributions as a model for class-conditional distribution for text document classification task. The vector document representations using a bag-of-words or a unigram approach are employed. Experimental comparison of the proposed model and the standard models was performed using Reuters-21578 database.
|
| |
| |
| |
| |
| |
| |