Název:
Podobnostní vyhledávání v databázích hmotnostních spekter
Překlad názvu:
Similarity search in Mass Spectra Databases
Autoři:
Novák, Jiří ; Skopal, Tomáš (vedoucí práce) ; Svozil, Daniel (oponent) ; Nahnsen, Sven (oponent) Typ dokumentu: Disertační práce
Rok:
2013
Jazyk:
eng
Abstrakt: [eng][cze] Shotgun proteomics is a widely known technique for identification of protein and peptide sequences from an "in vitro" sample. A tandem mass spectrometer generates tens of thousands of mass spectra which must be annotated with peptide sequences. For this purpose, the similarity search in a database of theoretical spectra generated from a database of known protein sequences can be utilized. Since the sizes of databases grow rapidly in recent years, there is a demand for utilization of various database indexing techniques. We investigate the capabilities of (non)metric access methods as the database indexing techniques for fast and approximate similarity retrieval in mass spectra databases. We show that the method for peptide sequences identification is more than 100x faster than a sequential scan over the entire database while more than 90% of spectra are correctly annotated with peptide sequences. Since the method is currently suitable for small mixtures of proteins, we also utilize a precursor mass filter as the database indexing technique for complex mixtures of proteins. The precursor mass filter followed by ranking of spectra by a modification of the parametrized Hausdorff distance outperforms state-of-the-art tools in the number of identified peptide sequences and the speed of search. The...Tandemová hmotnostní spektrometrie je známá metoda pro identifikaci proteinových a peptidových sekvencí ze vzorků biologického materiálu. Hmotnostní spektrometr generuje desetitisíce spekter, která musí být následně anotována peptidovými sekvencemi. Za tímto účelem lze využít podobnostní vyhledávání v databázích teoretických spekter generovaných z databází známých proteinových sekvencí. Vzhledem k tomu, že objem těchto databází každoročně narůstá téměř exponenciálním tempem, je zapotřebí hledat nové způsoby pro jejich indexování. V této práci se zaměřujeme na využití (ne)metrických přístupových metod jako databázových indexů pro rychlé a aproximativní podobnostní vyhledávání v databázích spekter. Navržená metoda identifikace peptidových sekvencí dosahuje více než 100-násobného zrychlení oproti sekvenčnímu průchodu celé databáze, přičemž je správně anotováno přes 90% spekter. V současnosti je metoda vhodná zejména pro malé směsi proteinů. Pro komplexní směsi proteinů využíváme indexovací metodu založenou na prekurzorovém hmotnostním filtru, která má při použití s modifikací parametrizované Hausdorffovy vzdálenosti vyšší rychlost i přesnost vyhledávání než běžně používané metody. Navržené metody jsou implementovány v aplikaci SimTandem, kterou lze použít pro dávkové zpracování ve frameworku TOPP...
Klíčová slova:
bioinformatika; identifikace peptidů; metrické a nemetrické přístupové metody; podobnostní vyhledávání; tandemová hmotnostní spektrometrie; bioinformatics; metric and non-metric access methods; peptide identification; similarity search; tandem mass spectrometry