Original title:
Genetické algoritmy: charakteristické slabiky jazyka
Translated title:
Genetic alogrithms: Characterical syllables of language
Authors:
Kuthan, Tomáš ; Lánský, Jan (advisor) ; Skopal, Tomáš (referee) Document type: Bachelor's theses
Year:
2007
Language:
cze Abstract:
[cze][eng] Slabiková komprese je nový přístup ke kompresi textů po symbolech. Důležitým aspektem tohoto přístupu jsou slovníky častých slabik. Tyto slovníky slouží k počáteční inicializaci kompresních algoritmů a mají velký vliv na kompresní poměr. Doposud byly získávány přímočaře na základě četností výskytů slabik v korpusech. Věříme, že za pomoci genetického algoritmu bychom mohli dokázat přesněji určit množinu slabik, které jsou pro daný jazyk charakteristické, a tím dosáhnout lepších výsledků při samotné kompresi. V této práci se pokusíme takovýto algoritmus navrhnout a otestujeme jej na textech v anglickém a českém jazyce.Syllable based compression is a new approach to text compression. An important aspect of this approach are the dictionaries of common syllables. They are used in compression algorithms initialization and greatly affect the compression ratio. Until now they were created by a rather straight-forward analysis of text corpora. We believe that dictionaries created by genetic algorithms may help us lower the compression ratio. In this study we will design such an algorithm and test it on Czech and English texts.
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/10940