Original title:
Mining nových terpen syntáz z rozsáhlých databází
Translated title:
Mining novel terpene synthases from large-scale repositories
Authors:
Čalounová, Tereza ; Pluskal, Tomáš (advisor) ; Štáfková, Jitka (referee) Document type: Master’s theses
Year:
2024
Language:
eng Abstract:
[eng][cze] Terpenes and terpenoids represent the largest and most structurally diverse group of natural products, with applications across many fields, including the pharmaceutical industry. These molecules are synthesized in nature by enzymes known as terpene synthases. This thesis conducted a bioinformatic analysis of a curated database containing all 1125 experimentally characterized terpene synthases, focusing on identifying patterns in sequence lengths and domain architectures of these enzymes across different kingdoms of life. Based on this analysis's knowledge, sequence-guided mining was conducted to identify possible new terpene synthases. Using nearly 5.5 billion protein sequences from various large-scale sequence repositories, the mining resulted in the identification of more than 600 thousand putative terpene synthases. These putative terpene synthases mainly originate from Bacteria and metagenomes, sources that had historically been less explored. The resulting dataset, accompanied by a phylogenetic tree, sequence similarity network, and two prioritization scores, offers a valuable resource for the discovery of novel terpenes. Keywords: terpene synthase, TPS, mining, Pfam, SUPERFAMILY, domain, terpeneTerpeny a terpenoidy představují největší a strukturně nejrozmanitější skupinu přírodních látek s využitím v mnoha oborech, včetně farmaceutického průmyslu. Tyto molekuly jsou v přírodě syntetizovány enzymy známými jako terpen syntázy. V této práci byla provedena bioinformatická analýza kurátorované databáze obsahující všech 1125 experimentálně charakterizovaných terpen syntáz se zaměřením na identifikaci vzorců v délkách sekvencí a doménových architekturách těchto enzymů napříč různými říšemi života. Na základě poznatků této analýzy byl proveden sekvenčně založený mining s cílem identifikovat možné nové terpen syntázy. S využitím téměř 5,5 miliard proteinových sekvencí z různých rozsáhlých sekvenčních databází vedl mining k identifikaci více než 600 tisíc potenciálních terpen syntáz. Tyto potenciální terpen syntázy pocházejí převážně z bakterií a metagenomů, tedy ze zdrojů, které byly historicky méně zkoumány. Výsledný dataset, doplněný fylogenetickým stromem, sítí sekvenční podobnosti a dvěma skóre prioritizace, nabízí cenný zdroj pro objevování nových terpenů. Klíčová slova: terpen syntáza, TPS, mining, Pfam, SUPERFAMILY, doména, terpen
Keywords:
database; domain; mining; Pfam; Supfam; terpene; terpene synthase; databáze; doména; mining; Pfam; Supfam; terpen; terpen syntáza
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/190195