Název:
Bioinformatický nástroj pro klasifikaci bakterií do taxonomických kategorií na základě sekvence genu 16S rRNA
Překlad názvu:
Bioinformatic Tool for Classification of Bacteria into Taxonomic Categories Based on the Sequence of 16S rRNA Gene
Autoři:
Valešová, Nikola ; Hon, Jiří (oponent) ; Smatana, Stanislav (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2019
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Tato práce se zabývá problematikou automatizované klasifikace a rozpoznávání bakterií po získání jejich DNA procesem sekvenování. V rámci této práce je navržena a popsána nová metoda klasifikace založená na základě segmentu 16S rRNA. Představený princip je vytvořen podle stromové struktury taxonomických kategorií a používá známé algoritmy strojového učení pro klasifikaci bakterií do jedné ze tříd na nižší taxonomické úrovni. Součástí práce je dále implementace popsaného algoritmu a vyhodnocení jeho přesnosti predikce. Přesnost klasifikace různých typů klasifikátorů a jejich nastavení je prozkoumána a je určeno nastavení, které dosahuje nejlepších výsledků. Přesnost implementovaného algoritmu je také porovnána s několika existujícími metodami. Během validace dosáhla implementovaná aplikace KTC více než 45% přesnosti při predikci rodu na datových sadách BLAST 16S i BLAST V4. Na závěr je zmíněno i několik možností vylepšení a rozšíření stávající implementace algoritmu.
This thesis deals with the problem of automated classification and recognition of bacteria after obtaining their DNA by the sequencing process. In the scope of this work, a new classification method based on the 16S rRNA gene segment is designed and described. The presented principle is constructed according to the tree structure of taxonomic categories and uses well-known machine learning algorithms to classify bacteria into one of the classes at the lower taxonomic level. A part of this thesis is also dedicated to the implementation of the described algorithm and evaluation of its prediction accuracy. The performance of various classifier types and their settings is examined and the setting with the best accuracy is determined. The accuracy of the implemented algorithm is also compared to several existing methods. During validation, the implemented KTC application reached more than 45 % accuracy on genus prediction on both BLAST 16S and BLAST V4 datasets. At the end of the thesis, there are mentioned several possibilities to improve and extend the current implementation of the algorithm.
Klíčová slova:
16S rRNA; bacteria classification; DNA sequencing; Machine learning; metagenomics; phylogenetic tree; scikit-learn; taxonomy; 16S rRNA; fylogenetický strom; klasifikace baterií; metagenomika; scikit-learn; sekvenování DNA; Strojové učení; taxonomie
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/180353