Original title:
Hierarchická komprese
Translated title:
Hierarchical compression
Authors:
Kreibichová, Lenka ; Lánský, Jan (advisor) ; Dvořák, Tomáš (referee) Document type: Master’s theses
Year:
2011
Language:
cze Abstract:
[cze][eng] Většina textových kompresních metod je založena na podobném principu. Vstupní text je rozdělen na posloupnost textových jednotek. Těmito textovými jednotkami jsou zpravidla znaky, slabiky nebo slova. Vyhledávání redundancí nad delšími textovými jednotkami je u velkých souborů zpravidla efektivnější. Výběrem slov jako textových jednotek ale ztrácíme možnost minimalizovat redundance nad slabikami a písmeny. V této práci jsme navrhli kompresní metodu, která konstruuje hierarchickou gramatiku zachycující redundance slabik, slov a delších částí textu. Následně namísto textových jednotek kóduje tuto gramatiku. Navrhli jsme strategii pro vytvoření této gramatiky na základě vstupního textu a popsali efektivní způsob jejího kódování. Součástí práce je porovnání efektivity této kompresní metody s jinými textovými metodami.The most of existing text compression methods is based on the same base concept. First the Input text is divided into sequence of text units. These text units cat be single symbols, syllables or words. When compressing large text files, searching for redundancies over longer text units is usually more effective than searching over the shorter ones. But if we choose words as base units we cannot anymore catch redundancies over symbols and syllables. In this paper we propose a new text compression method called Hierarchical compresssion. It constructs hierarchical grammar to store redundancies over syllables, words and upper levels of text. The code of the text then consists of code of this grammer. We proposed a strategy for constructing hierarchical grammar for concrete input text and we proposed an effective way how to encode it. Above mentioned our proposed method is compared with some other common methods of text compression.
Keywords:
grammar based compression; hierarchy; text compression; trie; gramarická komprese; hierarchie; textová komprese; trie
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/33410