Název:
Nástroj pro predikci atributů životního stylu na základě metagenomických dat z tlustého střeva
Překlad názvu:
Tool for Classification of Lifestyle Traits Based on Metagenomic Data from the Large Intestine
Autoři:
Kubica, Jan ; Hon, Jiří (oponent) ; Smatana, Stanislav (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2019
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá analýzou lidského mikrobiomu na základě metagenomických dat z tlustého střeva. Předmětem zkoumání je zastoupení bakterií na různých taxonomických úrovních v závislosti na životním stylu jedince. Byl vytvořen nástroj klasifikující jednotlivé atributy, jako jsou stravovací návyky (vegetarián, vegan, všežravec), citlivost na lepek a laktózu, body mass index nebo věk či pohlaví, s využitím metod strojového učení. Při implementaci byly zvoleny metody k nejbližších sousedů (kNN), náhodný les (RF) a metoda podpůrných vektorů (SVM). Data pro natrénování klasifikátoru a vyhodnocení byla čerpána z projektu American Gut. Práce se rovněž zaobírá problémy spojenými s danými datovými sadami, jako je mnoharozměrnost, řídkost, jejich kompoziční závislost a nevyváženost.
This thesis deals with analysis of human microbiome using metagenomic data from large intestine. The main focus is placed on bacteria composition in a sample on different taxonomic levels regarding the lifestyle traits of an individual. For this purpose, a tool for classification of several attributes was created. It considers attributes like diet type and eating habits (vegetarian, vegan, omnivore), gluten and lactose intolerance, body mass index, age or sex. From range of machine learning perspectives considering K Nearest Neighbours (kNN), Random Forest (RF) and Support Vector Machines (SVM) were used. Datasets for training and final evaluation of the classifier were taken from American Gut project. The thesis also focuses on particular problems with metagenomic datasets like its multidimensionality, sparsity, compositional character and class imbalance.
Klíčová slova:
analýza hlavních komponent; k nejbližších sousedů; klasifikace; lineární diskriminační analýza; metagenomika; metoda podpůrných vektorů; náhodný les; OTU; predikce; strojové učení; T-test; taxonomie; classification; K Nearest Neighbours; Linear Discriminant Analysis; machine learning; metagenomics; OTU; prediction; Principal Component Analysis; Random Forest; Support Vector Machines; T-test; taxonomy
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/180293