Název:
Sledování témat v elektronickém zpravodajství
Překlad názvu:
News Topics Tracking
Autoři:
Bílek, Karel ; Bojar, Ondřej (vedoucí práce) ; Holan, Tomáš (oponent) Typ dokumentu: Bakalářské práce
Rok:
2011
Jazyk:
cze
Abstrakt: [cze][eng] V této práci se snažím nalézt definici zpravodajského tématu tak, aby byla detekce těchto témat v textu implementovatelná a kvalita této detekce měřitelná. Popisuji možné metody - "prosté" počítání slov, případně se zavedením stopslov; TF-IDF; dále popisuji problém textové klasifikace, mírně se dotknu text clusteringu. Dále popisuji přístupy, nazvané latent semantic in- dexing a latent Dirichlet allocation. Také popisuji experimenty s "prostým" počítáním slov, TF-IDF a textovou klasifikací na databázi článků z něko- lika elektronických zdrojů; vznik této databáze v práci popisuji rovněž. Ke způsobu řešení pomocí textové klasifikace uvádím metriku pomocí měření přesnosti a úplnosti; podle těchto metrik měřím několik variant textové klasi- fikace. 1In this thesis, I try to find a definition of a news topic to make topic detec- tion implementable and its quality measurable. I describe various methods - a "simple" words counting, optionally with stopwords. I also describe TF-IDF and the text categorization problem. I touch the subject of text clustering. Then I briefly describe approaches called latent semantic indexing and la- tent Dirichlet allocation. The thesis includes my experiments with "simple" words counting, TF-IDF and text categorization on database of articles from several online news websites; I also describe the creation of this database. Precision and recall are used as a metric to text categorization approach. 1
Klíčová slova:
klíčová slova; témata; Zpravodajství; články; articles; keywords; News; topics