Original title:
Metody rychlého srovnání a identifikace sekvencí v metagenomických datech
Translated title:
Methods for fast sequence comparison and identification in metagenomic data
Authors:
Kupková, Kristýna ; Škutková, Helena (referee) ; Sedlář, Karel (advisor) Document type: Master’s theses
Year:
2016
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[eng][cze]
Předmětem této práce je vytvoření metody sloužící k identifikaci organismů z metagenomických dat. Doposud k tomuto účelu spolehlivě dostačovaly metody založené na zarovnání sekvencí s referenční databází. Množství dat ovšem s rozvojem sekvenačních technik rapidně roste a tyto metody se tak stávají díky své výpočetní náročnosti nevhodnými. V této diplomové práci je popsán postup nové techniky, která umožňuje klasifikaci metagenomických dat bez nutnosti zarovnání. Metoda spočívá v převedení sekvenovaných úseků na genomické signály ve formě fázových reprezentací, ze kterých jsou následně extrahovány vektory příznaků. Těmito příznaky jsou tři Hjorthovy deskriptory. Ty jsou dále vystaveny metodě maximalizace věrohodnosti směsi Gaussovských rozložení, která umožňuje spolehlivé roztřídění fragmentů podle jejich příslušnosti k organismu.
The objective of this thesis is to create a method for identification of organisms in metagenomic data. Until this point methods based on sequence alignment with reference database have been sufficient for this purpose. However, the volume of data grows rapidly with evolvement of sequencing techniques and the alignment-based methods became inconvenient due to computationally demanding alignment. A new technique is introduced in this master’s thesis, which allows alignment-free metagenomic data classification. The method is based on transformation of sequences to genomic signals in form of phase representation, from which feature vectors are extracted. These features are three Hjorth descriptors, which are then subjected expectation maximization for Gaussian mixture model method allowing reliable binning of metagenomic data.
Keywords:
bez zarovnání; genomický signál; Hjorthovy deskriptory; klasifikace; metagenom; strojové učení; alignment-free; binning; genomic signal; Hjorth descriptors; machine learning; metagenome
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/59879