Original title:
Sumarizace českých textů z více zdrojů
Translated title:
Multi-source Text Summarization for Czech
Authors:
Brus, Tomáš ; Bojar, Ondřej (advisor) ; Mareček, David (referee) Document type: Master’s theses
Year:
2012
Language:
cze Abstract:
[cze][eng] Diplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z~českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina).This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer).
Keywords:
BLEU; cosine coefficient; Dice; Jaccard; news articles; overlap; Prague Dependency Treebank; ROUGE; summarization; TF*IDF; Treex; BLEU; Dice; Jaccard; kosinový koe cient; novinové články; overlap; Prague Dependency Treebank; ROUGE; sumarizace; TF*IDF; Treex
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/49587