Home > Academic theses (ETDs) > Master’s theses > Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data
Original title:
Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data
Translated title:
Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data
Authors:
Koban, Martin ; PhD, Florian Halbritter, (referee) ; Mehnen, Lars (advisor) Document type: Master’s theses
Year:
2020
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[eng][cze]
S rozvojom techník pre efektívnu akvizíciu genomických dát sa jednou z kľúčových vedeckých výziev stala interpretácia výsledkov týchto experimentov v zmysluplnom biologickom kontexte. Táto práca sa zameriava na využitie informácií ukrytých v dobre charakterizovaných transkriptomických a epigenomických dátach z verejne dostupných zdrojov pre účely takejto interpretácie. Najskôr je vytvorený integrovaný súbor dát generovaných metódami DNase-seq a ATAC-seq, ktoré kvantifikujú chromatínovú dostupnosť. Tieto údaje sú doplnené verejne dostupnými výsledkami techniky RNA-seq pre kvantitatívne hodnotenie génovej expresie a vhodne predspracované pre ďalšiu analýzu. Pripravené dáta sú následne použité na trénovanie modelov strojového učenia (klasifikátorov) s dvomi základnými cieľmi. Po prvé za účelom augmentácie metadát prislúchajúcich k jednotlivým biologickým vzorkám v trénovacom dátovom súbore pomocou predikcie nedefinovaných anotácií. Po druhé pre anotáciu zle charakterizovaných testovacích dát (nepoužitých v trénovacej fáze) za účelom overenia generalizačnej schopnosti zostavených modelov. Dosiahnuté výsledky ukazujú, že natrénované klasifikátory sú schopné zachytiť biologicky relevantné informácie, zatiaľ čo vplyv technických artefaktov je minimalizovaný. Navrhnutý prístup je preto schopný prispieť k lepšiemu pochopeniu komplexných transkriptomických a epigenomických dát, predovšetkým v oblasti onkologického výskumu.
Since the advent of techniques capable of rapid acquisition of genomic data, it is one of the key challenges for researchers to interpret the results of such experiments in meaningful biological terms. In this work, we aim to exploit knowledge hidden in well-characterised transcriptomic and epigenomic data from publicly available sources to aid this interpretation. An integrated resource of chromatin accessibility data (from DNase-seq and ATAC-seq experiments) was created and pre-processed for downstream analyses, complemented by collections of public gene expression (RNA-seq) profiles. These datasets were used for training machine learning classifiers with two primary purposes. Firstly, for augmenting sample annotations by predicting undefined metadata labels in the training datasets. Secondly, for annotation of poorly characterised, unseen data to examine generalisation ability of the constructed models. We demonstrated that biologically relevant information was captured by the trained classifiers while technical artefacts were minimised. Thus, we validated that the proposed supervised machine learning approach can contribute to clarifying contents of cryptic transcriptomic and epigenomic datasets, particularly from the field of cancer research.
Keywords:
chromatínová dostupnosť; génová expresia; klasifikácia; metadáta; rakovina; strojové učenie; cancer; chromatin accessibility; classification; gene expression; machine learning; metadata
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/195467