Název:
Strojové učení v úloze predikce vlivu aminokyselinových mutací na stabilitu proteinu
Překlad názvu:
Prediction of Protein Stability upon Mutations Using Machine Learning
Autoři:
Malinka, František ; Martínek, Tomáš (oponent) ; Bendl, Jaroslav (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2014
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce popisuje nový přístup k predikci vlivu aminokyselinových mutací na změnu stability proteinu. Cílem je vytvořit nový meta-nástroj, který kombinuje výstupy osmi vybraných nástrojů, díky čemuž je schopen svoji predikční schopnost zlepšit. Pro nalezení optimálního konsenzu mezi těmito nástroji je použito různých metod strojového učení. Ze všech testovaných metod strojového učení dosahuje KStar nejvyšší úspěšnosti predikce na trénovacím datasetu tvořeného experimentálně ověřenými mutacemi z databáze ProTherm. Právě z tohoto důvodu je KStar vybrán jako optimální predikční technika. Pro prokázání korektnosti výsledků tohoto meta-nástroje je použito testovacího datasetu vytvořeného ojedinělým způsobem, a to z vícebodových mutací extrahovaných taktéž z databáze ProTherm. Jelikož nebyly vícebodové mutace použity pro natrénování žádného z integrovaných nástrojů, předpokládá se, že takovéto porovnání je objektivní. Ve výsledku se tímto přístupem podařilo pomocí metody strojového učení KStar zvýšit korelační koeficient na trénovacím datasetu o 0,130, respektive o 0,239 na datasetu testovacím oproti nejúspěšnějšímu integrovanému nástroji. Na základě zjištěných údajů je možné říci, že metody strojového učení jsou vhodnými technikami pro problémy z oblasti proteinových predikcí.
This thesis describes a new approach to the detection of protein stability change upon amino acid mutations. The main goal is to create a new meta-tool, which combines the outputs of eight well-established prediction tools and due to suitable method of consensus making, it is able to improve the overall prediction accuracy. The optimal strategy of combination of outputs of these tools is found by using a various number of machine learning methods. From all tested machine learning methods, KStar showed the highest prediction accuracy on the training dataset compiled from experimentally validated mutations originating from ProTherm database. Due to this reason, it is chosen as an optimal prediction technique. The general prediction abilities is validated on the testing dataset composed of multi-point amino acid mutations extracted also from ProTherm database. Since the multi-point mutations were not used for training any of integrated tools, we suppose that such comparison is objective. As a result, the developed meta-tool based on KStar technique improves the correlation coefficient about 0.130 on the training dataset and 0.239 on the testing dataset, respectively (the comparison is being made against the most succesful integrated tool). Based on the obtained results, it is possible to claim that machine learning methods are suitable technique for the problems from area of protein predictions.
Klíčová slova:
mutace proteinu; Predikce stability; protherm.; stabilita proteinu; strojové učení; machine learning; protein mutation; protein stability; protherm.; Stability prediction
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53278