Original title:
Sledování témat v elektronickém zpravodajství
Translated title:
News Topics Tracking
Authors:
Bílek, Karel ; Bojar, Ondřej (advisor) ; Holan, Tomáš (referee) Document type: Bachelor's theses
Year:
2011
Language:
cze Abstract:
[cze][eng] V této práci se snažím nalézt definici zpravodajského tématu tak, aby byla detekce těchto témat v textu implementovatelná a kvalita této detekce měřitelná. Popisuji možné metody - "prosté" počítání slov, případně se zavedením stopslov; TF-IDF; dále popisuji problém textové klasifikace, mírně se dotknu text clusteringu. Dále popisuji přístupy, nazvané latent semantic in- dexing a latent Dirichlet allocation. Také popisuji experimenty s "prostým" počítáním slov, TF-IDF a textovou klasifikací na databázi článků z něko- lika elektronických zdrojů; vznik této databáze v práci popisuji rovněž. Ke způsobu řešení pomocí textové klasifikace uvádím metriku pomocí měření přesnosti a úplnosti; podle těchto metrik měřím několik variant textové klasi- fikace. 1In this thesis, I try to find a definition of a news topic to make topic detec- tion implementable and its quality measurable. I describe various methods - a "simple" words counting, optionally with stopwords. I also describe TF-IDF and the text categorization problem. I touch the subject of text clustering. Then I briefly describe approaches called latent semantic indexing and la- tent Dirichlet allocation. The thesis includes my experiments with "simple" words counting, TF-IDF and text categorization on database of articles from several online news websites; I also describe the creation of this database. Precision and recall are used as a metric to text categorization approach. 1
Keywords:
articles; keywords; News; topics; klíčová slova; témata; Zpravodajství; články
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/50239