Název:
Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data
Překlad názvu:
Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data
Autoři:
Koban, Martin ; PhD, Florian Halbritter, (oponent) ; Mehnen, Lars (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [eng][cze]
S rozvojom techník pre efektívnu akvizíciu genomických dát sa jednou z kľúčových vedeckých výziev stala interpretácia výsledkov týchto experimentov v zmysluplnom biologickom kontexte. Táto práca sa zameriava na využitie informácií ukrytých v dobre charakterizovaných transkriptomických a epigenomických dátach z verejne dostupných zdrojov pre účely takejto interpretácie. Najskôr je vytvorený integrovaný súbor dát generovaných metódami DNase-seq a ATAC-seq, ktoré kvantifikujú chromatínovú dostupnosť. Tieto údaje sú doplnené verejne dostupnými výsledkami techniky RNA-seq pre kvantitatívne hodnotenie génovej expresie a vhodne predspracované pre ďalšiu analýzu. Pripravené dáta sú následne použité na trénovanie modelov strojového učenia (klasifikátorov) s dvomi základnými cieľmi. Po prvé za účelom augmentácie metadát prislúchajúcich k jednotlivým biologickým vzorkám v trénovacom dátovom súbore pomocou predikcie nedefinovaných anotácií. Po druhé pre anotáciu zle charakterizovaných testovacích dát (nepoužitých v trénovacej fáze) za účelom overenia generalizačnej schopnosti zostavených modelov. Dosiahnuté výsledky ukazujú, že natrénované klasifikátory sú schopné zachytiť biologicky relevantné informácie, zatiaľ čo vplyv technických artefaktov je minimalizovaný. Navrhnutý prístup je preto schopný prispieť k lepšiemu pochopeniu komplexných transkriptomických a epigenomických dát, predovšetkým v oblasti onkologického výskumu.
Since the advent of techniques capable of rapid acquisition of genomic data, it is one of the key challenges for researchers to interpret the results of such experiments in meaningful biological terms. In this work, we aim to exploit knowledge hidden in well-characterised transcriptomic and epigenomic data from publicly available sources to aid this interpretation. An integrated resource of chromatin accessibility data (from DNase-seq and ATAC-seq experiments) was created and pre-processed for downstream analyses, complemented by collections of public gene expression (RNA-seq) profiles. These datasets were used for training machine learning classifiers with two primary purposes. Firstly, for augmenting sample annotations by predicting undefined metadata labels in the training datasets. Secondly, for annotation of poorly characterised, unseen data to examine generalisation ability of the constructed models. We demonstrated that biologically relevant information was captured by the trained classifiers while technical artefacts were minimised. Thus, we validated that the proposed supervised machine learning approach can contribute to clarifying contents of cryptic transcriptomic and epigenomic datasets, particularly from the field of cancer research.
Klíčová slova:
cancer; chromatin accessibility; classification; gene expression; machine learning; metadata; chromatínová dostupnosť; génová expresia; klasifikácia; metadáta; rakovina; strojové učenie
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/195467