Original title:
Numerické metody pro klasifikaci metagenomických dat
Translated title:
Numerical methods for classification of metagenomic data
Authors:
Vaněčková, Tereza ; Sedlář, Karel (referee) ; Škutková, Helena (advisor) Document type: Master’s theses
Year:
2016
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato práce se zabývá metagenomikou a výpočetními metodami využívanými pro zpracování metagenomu. Literární rešerše metod nevyžadujících zarovnání ukázala, že metody založené na studiu taxonomicky specifických četností nukleotidových slov se jeví jako vhodný a dostatečně účinný nástroj pro zpracování metagenomických čtení sekvenačních technologií nové generace. Pro vyhodnocení potenciálu těchto metod byly testovány vybrané příznaky založené na studiu četností nukleotidových slov na sadě simulovaných metagenomických čtení. Analýza byla provedena pro různou délku slov a vyhodnocena s ohledem na úspěšnost klasifikace pomocí hierarchického shlukování v originálním datovém prostoru a K-means shlukování v redukovaném datovém prostoru.
This thesis deals with metagenomics and numerical methods for classification of metagenomic data. Review of alignment-free methods based on nucleotide word frequency is provided as they appear to be effective for processing of metagenomic sequence reads produced by next-generation sequencing technologies. To evaluate these methods, selected features based on k-mer analysis were tested on simulated dataset of metagenomic sequence reads. Then the data in original data space were enrolled for hierarchical clustering and PCA processed data were clustered by K-means algorithm. Analysis was performed for different lengths of nucleotide words and evaluated in terms of classification accuracy.
Keywords:
alignment-free methods; hierarchical clustering; K-means clustering; k-mers; Metagenomics; nucleotide words; PCA; sequencing technologies; hierarchické shlukování; K-means shlukování; k-mery; Metagenomika; metody nevyžadující zarovnání; nukleotidová slova; PCA; technologie sekvenování
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/59790