Original title:
Využití anotací primární struktury pro strukturní predikci protein-ligand aktivních míst
Translated title:
Use of residue-level annotations for structural prediction of protein-ligand binding sites
Authors:
Břicháčková, Kateřina ; Hoksza, David (advisor) ; Galgonek, Jakub (referee) Document type: Master’s theses
Year:
2021
Language:
eng Abstract:
[eng][cze] The number of experimentally resolved protein structures in the Protein Data Bank has been growing fast in the last 20 years, which motivates the develop- ment of many computational tools for protein-ligand binding sites prediction. Binding sites prediction from protein 3D structure has many important applica- tions; it is an essential step in the complex process of rational drug design, it helps to infer the side-effects of drugs, it provides insight into proteins biological functions and it is helpful in many other fields, such as protein-ligand docking and molecular dynamics. As far as we know, there has not been a study that would systematically investigate general properties of known ligand binding sites on a large scale. In this thesis, we examine these properties using existing experimen- tal and predicted residue-level annotations of protein sequence and structure. We present an automated pipeline for statistical analysis of these annotations, based on hypothesis testing and effect size estimation. It is implemented in Python and it is easily extensible by user-defined annotations. The usage is demonstrated on 33 existing annotations and 4 different datasets. The practical significance of the results is tested with P2Rank prediction method. We hope that the results as well as the pipeline...V posledních 20 letech se počet experimentálních proteinových struktur v databá- zi Protein Data Bank rychle zvyšuje, což motivuje vývoj nástrojů pro predikci protein-ligand vazebných míst. Strukturní predikce vazebných míst má mnoho důležitých aplikací; je klíčovým krokem v komplexním procesu návrhu léčiv, pomáhá objevovat vedlejší účinky léčiv, umožňuje chápat biologické funkce pro- teinů a je využívá se i v mnoha jiných oborech, jako je protein-ligand docking nebo molekulová dynamika. Pokud je autorce známo, dosud nebyla provedena studie, která by systematicky zkoumala obecné vlastnosti známých vazebných míst na velkých datasetech. Tato práce se zaměřuje na analýzu těchto vlast- ností, s využitím existujících experimentálních i predikovaných anotací primární a terciální struktury proteinu. Je zde představena metoda pro statistickou analýzu těchto anotací, která je založena na testování hypotéz a odhadu velikosti účinku. Metoda je implementována v jazyce Python a lze ji jednoduše rozšířit o nové ano- tace definované uživatelem. Použití je demonstrováno na 33 existujících anotacích a čtyřech různých datasetech. Praktická významnost výsledků je otestována s po- mocí metody P2Rank. Výsledky i...
Keywords:
3D-based prediction; binding sites; binding sites prediction; P2Rank; protein-ligand binding sites; residue-level annotations; statistical analysis; 3D-based predikce; anotace primárnı́ struktury; P2Rank; predikce vazebných mı́st; protein-ligand vazebná mı́sta; statistická analýza; vazebná mı́sta
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/124873