Original title:
Podobnostní vyhledávání v proteinových databázích
Translated title:
Similarity Search in Protein Databases
Authors:
Hoksza, David ; Skopal, Tomáš (advisor) ; Navarro, Gonzalo (referee) ; Svozil, Daniel (referee) Document type: Doctoral theses
Year:
2010
Language:
eng Abstract:
[eng][cze] One of the principal operations in the area of bioinformatics is similarity assessment at the levels of protein sequence (string of characters) and protein structure (3D shape). It is employed in a wide range of applications such as protein structure prediction, protein function assessment, automatic classification, etc. The protein databases have been growing exponentially in recent years, thus making the existing methods for similarity retrieval inappropriate concerning the volume of the protein-related data. In this thesis, we focus on similarity retrieval on protein sequence and structure levels. At both levels, we propose improvements to the existing methods, as well as novel methods for managing proteins from the similarity perspective. In the first part of the thesis we approach the problem of similarity retrieval at protein sequence level. First, we evaluate the possibilities of utilizing metric access methods for efficient storing and retrieval of protein sequences. Then, we focus on the protein similarity measure itself. Since the similarity computation of protein sequences is based on dynamic programming, we introduce an improvement for increasing efficiency (response time) of the retrieval by reusing parts of the dynamic programming matrix, while maintaining original effectiveness (quality of...Jedna z hlavních operací v oblasti bioinformatiky je prirazení podobnosti proteinových sekvencí a struktur. Toto prirazení se využívá v širokém spektru aplikací jako je predikce proteinové struktury, prirazení funkce, automatická klasifikace, atd. Proteinové databáze zaznamenaly v posledních letech exponenciální rust dat, címž se stávající metody pro extrakci podobnosti stávají nevhodnými vzhledem k objemu dat. V této práci se zabýváme podobnostním vyhledáváním na úrovni proteinové sekvence a struktury. Na obou úrovních navrhujeme vylepšení stávajících metod, stejne jako nové metody pro práci s proteiny z hlediska podobnosti. V první cásti se zabýváme podobnostním vyhledáváním na úrovni proteinové sekvence. Nejdríve zkoumáme možnosti aplikace metrických prístupových metod pro efektivní uložení a vyhledávání sekvencí. Poté se zamerujeme na podobnostní míru proteinových sekvencí jako takovou. Výpocet podobnosti proteinových sekvencí je založen na dynamickém programování a proto navrhujeme vylepšení za úcelem zrychlení vyhledávání znovuvyužíváním cástí matice dynamického programování pri zachování presnosti vyhledávání. Druhá cást práce se zabývá podobností proteinových struktur. Predstavujeme nový prístup k reprezentaci proteinových struktur, který je invariantní s ohledem na posun a rotaci. Invariance...
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/34986