Název:
Doplnění (imputace) chybějících genetických markerů SNP
Překlad názvu:
Imputation of missing genetic markers SNP
Autoři:
Kranjčevičová, Anita ; Přibyl, Josef (vedoucí práce) ; Jindřich, Jindřich (oponent) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
cze
Nakladatel: Česká zemědělská univerzita v Praze
Abstrakt: [cze][eng] Práce s genomovými informacemi se ve šlechtění skotu stala standardem. Diplomová práce se zabývá zohledněním chybějících genetických markerů SNP na genetických čipech. Jedná se o doplnění chybějících hodnot v souborech dat obsahujících informace o výskytu jednonukleotidových polymorfismů SNP v genomu skotu. Tyto polymorfismy se využívají při výpočtech genomických plemenných hodnot, při stanovení genomické příbuznosti, a tím i při vlastním hodnocení zvířat. Nejběžnější čipy pro genotypování jsou Illumina a Affymetrix, každá firma vyvíjí vlastní techniku získávání genotypů. Affymetrix má jednotné kódování jednotlivých SNP mezi čipy různých generací, a proto není obtížné použití i starších dat. Illumina využívá mnoho kódování mezi jednotlivými generacemi čipů, přímé porovnání SNP proto není možné. Ve své platformě má čipy o různé hustotě a různé finanční náročnosti. Čipy od Illuminy se staly světovým standardem a jsou používány všemi chovatelskými společnostmi. Nejčastěji využívané programy pro imputace chybějících SNP jsou Beagle, AlphaImpute, Impute 2, FindHap, DAGPHASE, FImputePedImpute a MaCH. Jednotlivé programy vyžadují příbuzenskou vazbu mezi genotypovanými jedinci. V běžném chovatelském provozu genotypování není ve sledu generací. Proto byl použit vlastní metodický postup. Cílem diplomové práce je zmapování stávajícího výzkumu ohledně doplňování chybějících genetických markerů na genetických čipech a ověření výpočetního postupu. Bylo vytvořeno celkem 8 modelů, lišících se počtem testovaných SNP. Otestováno bylo 10 až 100 sousedních lokusů. Testování probíhalo u zvolených lokusů na dvou souborech. Soubor A představoval 260 genotypů býků několika plemen z České republiky. Soubor B obsahoval 3 982 býků z devíti zemí, kteří splňovali podmínku 100% podíl holštýna. V prvním případě bylo dosaženo velmi dobrých výsledků. Předpověď chybějících hodnot se podařila téměř přesně se spolehlivostí modelu 100%, výjimkou byly téměř homozygotní lokusy, kde bylo dosaženo spolehlivosti modelu jen 55%. Při testování druhého souboru dat, který obsahoval mnohem více genotypů, se u nejrozsáhlejšího modelu podařilo dosáhnout spolehlivosti 80 až 90 % a to i v případě homozygotních lokusů. Chyba předpovědi byla vyšší než v prvním případě. Bylo dokázáno, že předpověď chybějících hodnot lze dopočítat pomocí sousedních SNP. Výsledky práce slouží jako základ k dalšímu studiu genomických dat.Working with genomic information in cattle breeding has become a standard procedure. This study is focused on completion of missing genetic markers - SNPs (single nucleotide polymorphisms) - on genetic chips. More specifically completion of missing values in datasets which contain pieces of information about SNP occurence in cattle genome. These polymorfisms are used for evaluation of genomic relationship, prediction of genomic breeding values and for the valuation of tested animals. The most common chips used for genotyping are Illumina and Affymetrix. Each company develops its own techniques of genotype obtaining. Affymetrix has unified coding type of SNPs among chips of different generations and thus even older data can be used. Illumina uses many coding types between different generations of chips. Thus, direct comparison of SNPs is not possible. Illumina has chips of different density and financial costingness. Illumina chips have become a standard all over the world and it is used by all breeding companies. The most used software programs for imputations are Beagle, AlphaImpute, Impute 2, FindHap, DAGPHASE, FImputePedImpute and MaCH. Each software requires a relationship between genotyped individuals. In common breeding business the genotyping is not in train of generations. That is why our own methodological process was used. The aim of this study is to map the current research about the completion of missing genetic markers on genetic chips and to verify the calculation process. In total, it was created 8 models with different amount of tested SNPs. From 10 to 100 neighbouring loci was tested. The testing was processed at chosen loci in two datasets. Dataset A contained 260 bull genotypes of different breeds from the Czech Republic. Dataset B contained 3982 genotypes of pure Holstein bulls from nine countries. In the first case a very good results were obtained. The prediction of missing values was almost accurate with model reliability 100%. The only exception was for almost entirely homozygous loci where the reliability reached only 55%. When the second dataset was tested, the most extensive model reached the reliability of 80 90% even in case of homozygous loci. The prediction error value was higher than in the first case. It was proven that missing values prediction is possible to calculate using the neighbouring SNPs. The outputs of this study are to be the base for further study of genomic data.
Klíčová slova:
genomická příbuznost; imputace; SNP markery