Název:
Porovnání metod pro kompresi velké abecedy
Překlad názvu:
Comparison of Large Alphabet Compression Methods
Autoři:
Kuthan, Tomáš ; Lánský, Jan (vedoucí práce) ; Majerech, Vladan (oponent) Typ dokumentu: Diplomové práce
Rok:
2010
Jazyk:
cze
Abstrakt: [cze][eng] Při kompresi textu nad abecedou slov nebo slabik je potřeba řešit problém, jak přenést abecedu mezi kodérem a dekodérem. Především u malých a středně velkých dokumentů tvoří kód abecedy významnou část výsledného souboru. Je proto vhodné reprezentovat abecedu co nejúsporněji. Obsahem této práce je srovnání tří přístupů ke kompresi velké abecedy - statického, semiadaptivního a adaptivního. Jsou zde též zkoumány možnosti statické inicializace adaptivních metod pomocí častých elementů jazyka. V neposlední řadě je zde také představena nová, velice efektivní metoda pro kompresi množiny řetzců založená na konečných automatech.Text compression over alphabet of words or syllables brings up a new concern to deal with - the alphabet needs to be transferred between coder and decoder along with the message. Especially with small or middle-sized documents the code of the alphabet forms a signi cant part of the resulting le. Therefore it is desirable to represent the alphabet as dense as possible. The topic of this thesis is a comparison of three approaches to large alphabet compression - static, semiadaptive and adaptive approach. Moreover the potential of static initialization of adaptive methods with frequent words is analyzed. Furthermore a new and highly eff ective method for compression of a set of strings is introduced.