Original title:
Nástroj pro predikci atributů životního stylu na základě metagenomických dat z tlustého střeva
Translated title:
Tool for Classification of Lifestyle Traits Based on Metagenomic Data from the Large Intestine
Authors:
Kubica, Jan ; Hon, Jiří (referee) ; Smatana, Stanislav (advisor) Document type: Bachelor's theses
Year:
2019
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá analýzou lidského mikrobiomu na základě metagenomických dat z tlustého střeva. Předmětem zkoumání je zastoupení bakterií na různých taxonomických úrovních v závislosti na životním stylu jedince. Byl vytvořen nástroj klasifikující jednotlivé atributy, jako jsou stravovací návyky (vegetarián, vegan, všežravec), citlivost na lepek a laktózu, body mass index nebo věk či pohlaví, s využitím metod strojového učení. Při implementaci byly zvoleny metody k nejbližších sousedů (kNN), náhodný les (RF) a metoda podpůrných vektorů (SVM). Data pro natrénování klasifikátoru a vyhodnocení byla čerpána z projektu American Gut. Práce se rovněž zaobírá problémy spojenými s danými datovými sadami, jako je mnoharozměrnost, řídkost, jejich kompoziční závislost a nevyváženost.
This thesis deals with analysis of human microbiome using metagenomic data from large intestine. The main focus is placed on bacteria composition in a sample on different taxonomic levels regarding the lifestyle traits of an individual. For this purpose, a tool for classification of several attributes was created. It considers attributes like diet type and eating habits (vegetarian, vegan, omnivore), gluten and lactose intolerance, body mass index, age or sex. From range of machine learning perspectives considering K Nearest Neighbours (kNN), Random Forest (RF) and Support Vector Machines (SVM) were used. Datasets for training and final evaluation of the classifier were taken from American Gut project. The thesis also focuses on particular problems with metagenomic datasets like its multidimensionality, sparsity, compositional character and class imbalance.
Keywords:
classification; K Nearest Neighbours; Linear Discriminant Analysis; machine learning; metagenomics; OTU; prediction; Principal Component Analysis; Random Forest; Support Vector Machines; T-test; taxonomy; analýza hlavních komponent; k nejbližších sousedů; klasifikace; lineární diskriminační analýza; metagenomika; metoda podpůrných vektorů; náhodný les; OTU; predikce; strojové učení; T-test; taxonomie
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/180293