Original title:
Akcelerace strukturního vyhledávání v databázích malých molekul
Translated title:
Accelerating structure search in small-molecule databases
Authors:
Kratochvíl, Miroslav ; Bednárek, David (advisor) ; Hoksza, David (referee) Document type: Rigorous theses
Year:
2019
Language:
eng Abstract:
[eng][cze] Structure search is one of the valuable capabilities of small-molecule databases. Available chemical cartridges typically provide acceptable search performance for processing user queries, but do not scale satisfactorily with dataset size. This thesis presents Sachem, a new open-source chemical car- tridge that implements a novel method of substructure search, which em- ploys newly designed fingerprints stored in inverted indexes. The perfor- mance of the method was assessed on datasets that contain tens of mil- lions of molecules. Comparison of the performance to that of other available cartridges revealed improvements in overall search speed, scaling potential and screen-out efficiency. Additionally, the thesis presents an application of Sachem; a SPARQL service that augments existing semantic services by including results of substructure and similarity searches in small-molecule databases. The result offers new possibilities for simpler querying of the interoperable heterogeneous data sources. 1Vyhledávání podstruktur je jednou z nejcennějších schopností databází malých molekul. Dostupné databáze typicky poskytují akceptovatelně rychlé zpracování uživatelských dotazů, ale nejsou dostatečně škálovatelné s ve- likostí uložených dat. V této práci je popsána nová open-source databáze Sachem, která implementuje novoý způsob vyhledávání podstruktur využí- vající nově sestavené otisky chemických molekul uložené v invertovaných databázových indexech. Rychlost vyhledávání v této databázi byla měřena na datových sadách obsahujících desítky milionů molekul. Porovnání výkon- nosti s jinými dostupnými databázemi potvrdilo zlepšení v celkové rychlosti hledání, možností škálování výkonnosti i v efektivitě prosívání dat. Práce dále popisuje aplikaci databáze Sachem, službu založenou na dotazovacím jazyku SPARQL, která rozšiřuje existující sémantické datové služby o možnost zahrnout v dotazech i chemicky relevantní strukturní a podobnostní podmínky. Výsledek nabízí nové, jednodušší možnosti dotazování v dostupných heterogenních da- tových zdrojích. 1
Keywords:
cheminformatics; databases; inverted indexes; substructure search; chemoinformatika; databáze; invertované indexy; vyhledávání podstruktur
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/106081