Název:
Maskované nadřetězce pro efektivní reprezentaci a indexování množin k-merů
Překlad názvu:
Masked Superstrings for Efficient k-Mer Set Representation and Indexing
Autoři:
Sladký, Ondřej ; Veselý, Pavel (vedoucí práce) ; Medvedev, Paul (oponent) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
eng
Abstrakt: [eng][cze] The exponential growth of genomic data calls for novel space-efficient algorithms for compression and search. State-of-the-art approaches often rely on tokenization of the data into k-mers, which are substrings of a fixed length. The popularity of k-mer based methods has led to the development of compact textual k-mer set representations, however, these rely on structural assumptions about the data which may not hold in practice. In this thesis, we demonstrate that all these representations can be viewed as superstrings of the k-mers, and as such can be generalized into a unified framework that we call the masked superstrings of k-mers. We provide two different greedy heuristics for their computation and implement them in a tool called KmerCamel. We further demonstrate that masked superstrings can serve as a building block of a novel, simple k-mer set index which we call FMS-index. Additionally, if masked superstrings further integrate a demasking function f, the resulting f-masked superstrings framework allows for seamless set operations with k-mers. We experimentally evaluate the performance of masked superstrings, as well as of our FMS-index implementation, FMSI, and show that masked superstrings achieve better compression in situations where the previous methods were far from optima. Furthermore, we...Současný exponenciální nárůst genomických dat vyžaduje nové prostorově úsporné algoritmy pro jejich kompresi a vyhledávání. Moderní přístupy často místo původních dat využívají příslušných množin k-merů, což jsou podřetězce pevné délky k. Popu- larita metod založených na k-merech vedla k vzniku kompaktních textových reprezen- tací množin k-merů, jež však stojí na strukturálních předpokladech, které pro data v praxi nemusí platit. V této bakalářské práci ukážeme, že na všechny tyto reprezentace lze nahlížet jako na nadřetězce množin k-merů a jako takové je zobecníme pomocí uceleného konceptu, kterému říkáme maskované nadřetězce k-merů. Navrhneme dva různé hladové algoritmy na jejich výpočet a implementujeme je v nástroji KmerCamel. Dále demonstru- jeme, že maskované nadřetězce fungují jako stavební kámen pro nový a jednoduchý index pro množiny k-merů, který nazýváme FMS-index. Pokud k maskovaným nadřetězcům přiřadíme navíc odmaskovávací funkci f, výsledný koncept f-maskovaných nadřetězců umožňuje jednoduché provádění množinových operací s k-mery. Experimentálně ověříme prostorovou úspornost maskovaných nadřetězců, stejně tak i naší implementace FMS- indexu. Ukážeme, že maskované nadřetězce jsou lépe komprimovatelné v situacích, kde předchozí přístupy byly daleko od optima a že FMS-index je prostorově...
Klíčová slova:
množiny k-merů|bioinformatika|výpočetní genomika|datové struktury|algoritmy|problém nejkratšího nadřetězce; k-mer sets|bioinformatics|computational genomics|data structures|algorithms|shortest superstring problem