Original title:
Quality assurance of RNA-Seq workflows with spike-ins controls
Translated title:
Quality assurance of RNA-Seq workflows with spike-ins controls
Authors:
Drozd, Tomáš ; Turk, Andreas (referee) ; Mehnen, Lars (advisor) Document type: Master’s theses
Year:
2019
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[eng][cze]
Spike-in controls, jako je External RNA Controls Consortium (ERCC) nebo Spike-In RNA Variants (SIRV) od firmy Lexogen, se staly nezbytnými v odhadování technické variability. Protože SIRV E0 transcripty mají identickou koncentraci, jejich variabilita po sekvenaci lze použít k odvození technické variability z jednotlivých replikovaných vzorků. To je ekonomičtější než standardní přístup, který více replikovaných vzorků pro odhadování technické variability vyžaduje. Model DESeq, což je standardní nástroj pro analýzu rozdílné exprese genu, byl upraven na základě informací ze SIRV nebo ERCC pro odhad variability. Následně se odhadla pravděpodobnost změny na základě technické variability. Vysoká variabilita mezi SIRV transkripty byla zjištěna, což vedlo k jinému přístupu založenému na odhadu variability pro každý transkript samostatně. Tento inovativní přístup odhalil lepší výkon u datasetů, kde byla pro danou analýzu přítomna pouze technická variabilita pro určitý počet replikovaných vzorků pro danou fyziologickou skupinu (například nádorová a zdravá tkáň). Bylo pozorováno, že při zvýšení počtu vzorků vede k vyšší spolehlivosti pro odhad. Spike-ins, zejména SIRV, však zlepšil výkon analýzy než odhadu založeného na endogenních genech pro určitý počet replikovaných vzorků. Pro normalizaci technické variability je nutné provést další výzkum, aby bylo možné odhadnout významné změny v biologické variabilitě při sekvenaci RNA.
Spike-in controls such as External RNA Controls Consortium (ERCC) or Lexogen‘s Spike-In RNA Variants (SIRVs) have become essential when it comes assessment of technical variability. Since the E0 SIRVs have identical concentration, variations in their estimated concentration can be used to infer the technical variability from single replicates. This is more economic than the standard approach, which estimates the technical variance from multiple replicates. The DESeq model, a standard tool for differential expression, was modified based on spike-ins information to estimate technical variability. Subsequently, the probability of a change in expression due to technical variability was obtained. A high variation between SIRV transcript read counts was discovered, giving rise to another approach based on estimation of variability for each trasncript separately. This innovative approach revealed better performance on datasets, where only technical variability was present for cross-condition analysis for a given number of replicates per condition. It was observed that increase in number of samples results in higher reliability for estimation. However, spike-ins, especially SIRVs, improved performance of analysis than estimation based on endogenous genes when a few replicates are available. Further reasearch is needed for normalizing technical varibility to estimate significant changes in biological variation.
Keywords:
analýza změn v genové expresi; ERCCs; sekvenování RNA; SIRVs; Spike-in controls; technická variabilita; differential expression; ERCCs; RNA-seq; SIRVs; spike-ins; Technical variability
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/208430