Název:
Ambivalentní reprezentace genetických variant ve formátu VCF
Překlad názvu:
Ambiguous representation of genetic variants in the VCF format
Autoři:
Neitzert, Gesa-Maret ; Daněček, Petr (vedoucí práce) ; Fišer, Karel (oponent) Typ dokumentu: Bakalářské práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] The variant call format (VCF) is a file format used to represent and store information about DNA variation. Genetic variants in VCF can be represented in multiple ways because the VCF specification allows for ambiguity, which can arise because of different variant calling pipelines or differences in sequence alignment. Ambiguities interfere with the comparison of VCF files and the variants therein, leading to complications in further analysis of variants. This thesis explores the differences in the representation of genetic variants that can occur, as well as their causes and impacts on further analysis. Furthermore, the normalization of VCF files is addressed and an algorithm for the atomization and deatomization of VCF files is shown. Keywords: VCF, variant call format, ambiguous variant representation, variant comparison, variant atomization, variant deatomizationVariant call format (VCF) je formát souborů používaný k reprezentaci a ukládání informací o variantách. Genetické varianty ve VCF mohou být reprezentovány více způsobů, protože specifikace VCF umožňuje nejednoznačnost, která může nastat kvůli různým variant call pipelinům nebo rozdílům v alignmentech sekvencí. Nejednoznačnosti narušují srovnávání souborů ve VCF a jejich variant, což vede ke komplikacím při další analýze variant. Tato práce zkoumá rozdíly v reprezentaci genetických variant, které se mohou vyskytnout, a také jejich pravděpodobné příčiny a dopady na další analýzu. Dále je zkoumána normalizace souborů VCF a je uveden algoritmus pro atomizaci a deatomizaci souborů VCF. Klíčová slova: VCF, variant call format, ambivalentní reprezentace variant, srovnání variantů, atomizace variantů, deatomizace variantů