Název:
Sumarizace českých textů z více zdrojů
Překlad názvu:
Multi-source Text Summarization for Czech
Autoři:
Brus, Tomáš ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
cze
Abstrakt: [cze][eng] Diplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z~českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina).This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer).
Klíčová slova:
BLEU; Dice; Jaccard; kosinový koe cient; novinové články; overlap; Prague Dependency Treebank; ROUGE; sumarizace; TF*IDF; Treex; BLEU; cosine coefficient; Dice; Jaccard; news articles; overlap; Prague Dependency Treebank; ROUGE; summarization; TF*IDF; Treex