Název:
Akcelerace strukturního vyhledávání v databázích malých molekul
Překlad názvu:
Accelerating structure search in small-molecule databases
Autoři:
Kratochvíl, Miroslav ; Bednárek, David (vedoucí práce) ; Hoksza, David (oponent) Typ dokumentu: Rigorózní práce
Rok:
2019
Jazyk:
eng
Abstrakt: [eng][cze] Structure search is one of the valuable capabilities of small-molecule databases. Available chemical cartridges typically provide acceptable search performance for processing user queries, but do not scale satisfactorily with dataset size. This thesis presents Sachem, a new open-source chemical car- tridge that implements a novel method of substructure search, which em- ploys newly designed fingerprints stored in inverted indexes. The perfor- mance of the method was assessed on datasets that contain tens of mil- lions of molecules. Comparison of the performance to that of other available cartridges revealed improvements in overall search speed, scaling potential and screen-out efficiency. Additionally, the thesis presents an application of Sachem; a SPARQL service that augments existing semantic services by including results of substructure and similarity searches in small-molecule databases. The result offers new possibilities for simpler querying of the interoperable heterogeneous data sources. 1Vyhledávání podstruktur je jednou z nejcennějších schopností databází malých molekul. Dostupné databáze typicky poskytují akceptovatelně rychlé zpracování uživatelských dotazů, ale nejsou dostatečně škálovatelné s ve- likostí uložených dat. V této práci je popsána nová open-source databáze Sachem, která implementuje novoý způsob vyhledávání podstruktur využí- vající nově sestavené otisky chemických molekul uložené v invertovaných databázových indexech. Rychlost vyhledávání v této databázi byla měřena na datových sadách obsahujících desítky milionů molekul. Porovnání výkon- nosti s jinými dostupnými databázemi potvrdilo zlepšení v celkové rychlosti hledání, možností škálování výkonnosti i v efektivitě prosívání dat. Práce dále popisuje aplikaci databáze Sachem, službu založenou na dotazovacím jazyku SPARQL, která rozšiřuje existující sémantické datové služby o možnost zahrnout v dotazech i chemicky relevantní strukturní a podobnostní podmínky. Výsledek nabízí nové, jednodušší možnosti dotazování v dostupných heterogenních da- tových zdrojích. 1
Klíčová slova:
chemoinformatika; databáze; invertované indexy; vyhledávání podstruktur; cheminformatics; databases; inverted indexes; substructure search