Original title:
Lingvistická komprese textu
Translated title:
Linguistic Text Compression
Authors:
Kazík, Ondřej ; Lánský, Jan (advisor) ; Dědek, Jan (referee) Document type: Master’s theses
Year:
2009
Language:
cze Abstract:
[cze][eng] Při kompresi textu můžeme s úspěchem využít znalosti o přirozeném jazyce. V předkládané práci poukazujeme na možnost kódovat samostatně posloupnost slovních druhů nacházejících se ve větě(větný typ) a text samotný. Za tímto účelem je navrhnuta metoda značkování založená na neuronových sítích (NNTagger). Dále se práce soustřeďuje na specifi kaci takového modelu komprese českých textů. Navrhujeme zde metody vytvoření jejich inicializačních slovníků a testujeme vliv na výslednou kompresi.The compression of texts written in natural language can exploit information about its linguistic character. It is shown that separation of coding of part-of-speech tags of a sentence (type of sentence) from the text alone can improve resulting compression ratio. For this purpose the tagging method NNTagger based on neural networks is designed. This thesis is focused on speci fication of the compression model of texts written in Czech. We propose methods of constructing of initial dictionaries and test their influence on the compression ratio.
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/30655