Název:
Lingvistická komprese textu
Překlad názvu:
Linguistic Text Compression
Autoři:
Kazík, Ondřej ; Lánský, Jan (vedoucí práce) ; Dědek, Jan (oponent) Typ dokumentu: Diplomové práce
Rok:
2009
Jazyk:
cze
Abstrakt: [cze][eng] Při kompresi textu můžeme s úspěchem využít znalosti o přirozeném jazyce. V předkládané práci poukazujeme na možnost kódovat samostatně posloupnost slovních druhů nacházejících se ve větě(větný typ) a text samotný. Za tímto účelem je navrhnuta metoda značkování založená na neuronových sítích (NNTagger). Dále se práce soustřeďuje na specifi kaci takového modelu komprese českých textů. Navrhujeme zde metody vytvoření jejich inicializačních slovníků a testujeme vliv na výslednou kompresi.The compression of texts written in natural language can exploit information about its linguistic character. It is shown that separation of coding of part-of-speech tags of a sentence (type of sentence) from the text alone can improve resulting compression ratio. For this purpose the tagging method NNTagger based on neural networks is designed. This thesis is focused on speci fication of the compression model of texts written in Czech. We propose methods of constructing of initial dictionaries and test their influence on the compression ratio.