Název:
Zpracování unikátních molekulárních indexů bez mapování k referenčnímu genomu
Překlad názvu:
Processing of Unique Molecular Identifiers without Mapping to a Reference Genome
Autoři:
Barilíková, Lujza ; Demko, Martin (oponent) ; Sedlář, Karel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [eng][cze]
Hlavným cieľom tejto práce je návrh nového algoritmu k spracovaniu unikátnych molekulárnych indexov bez mapovania na referenčný genóm. O tieto náhodné oligonukleotidové sekvencie neustále vzrastá záujem, pretože uľahčujú rozpoznávať PCR chyby a skresľovanie údajov. Keďže používanie technológií sekvenovania novej generácie neustále rastie, je vynaložené veľké úsilie vyvíjať nástroje pre analýzu produkovaných dát. V súčasnosti sú nástroje na riešenie týchto chýb relatívne časovo náročné a zložité z dôvodu výpočtovo náročného zarovnania. Najdôležitejšie obmedzenie týchto nástrojov spočíva v skutočnosti, že pri spracovávaní duplikátov sú povolené multi-mapované čítania. Tieto čítania sú zvyčajne ignorované, čo môže viesť k zníženiu kvantitatívnej presnosti a spôsobiť zavádzajúcu interpretáciu výsledkov daného sekvenovania. V snahe vyriešiť tento problém je v tejto práci uvedený nový prístup, ktorý umožňuje odhad absolútneho počtu jedinečných molekúl s relatívne rýchlym a spoľahlivým spôsobom.
The main purpose of this thesis is to design a new algorithm for processing unique molecular identifiers (UMIs) without mapping to a reference genome. These random oligonucleotide sequences are attracting an increasing interest due to its ability to facilitate PCR error and bias recognition. Since there has been a rapid rise in the use of next-generation sequencing (NGS) technologies, great effort has been put into the development of tools for data analysis. At present, tools to solve these errors are usually relative time-consuming and complex due to computationally demanding alignment. The most important limitation of these tools lies in the fact that multi-mapping reads are allowed when processing duplicates. These reads are usually ignored and may lead to a reduction of quantitative accuracy and cause misleading interpretation of sequencing results. In order to solve this problem, a new approach is introduced in this thesis, which allows estimating the absolute number of unique molecules with relatively fast and reliable performance.
Klíčová slova:
duplicates; next-generation sequencing; PCR error; unique molecular identifier (UMI); duplikáty; nová generácia sekvenovania; PCR chyby; unikátne molekulárne identifikátory (UMI)
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/189147