TY - THES TI - Akcelerace strukturního vyhledávání v databázích malých molekul TT - Accelerating structure search in small-molecule databases AU - Kratochvíl, Miroslav AB - Structure search is one of the valuable capabilities of small-molecule databases. Available chemical cartridges typically provide acceptable search performance for processing user queries, but do not scale satisfactorily with dataset size. This thesis presents Sachem, a new open-source chemical car- tridge that implements a novel method of substructure search, which em- ploys newly designed fingerprints stored in inverted indexes. The perfor- mance of the method was assessed on datasets that contain tens of mil- lions of molecules. Comparison of the performance to that of other available cartridges revealed improvements in overall search speed, scaling potential and screen-out efficiency. Additionally, the thesis presents an application of Sachem; a SPARQL service that augments existing semantic services by including results of substructure and similarity searches in small-molecule databases. The result offers new possibilities for simpler querying of the interoperable heterogeneous data sources. 1 AB - Vyhledávání podstruktur je jednou z nejcennějších schopností databází malých molekul. Dostupné databáze typicky poskytují akceptovatelně rychlé zpracování uživatelských dotazů, ale nejsou dostatečně škálovatelné s ve- likostí uložených dat. V této práci je popsána nová open-source databáze Sachem, která implementuje novoý způsob vyhledávání podstruktur využí- vající nově sestavené otisky chemických molekul uložené v invertovaných databázových indexech. Rychlost vyhledávání v této databázi byla měřena na datových sadách obsahujících desítky milionů molekul. Porovnání výkon- nosti s jinými dostupnými databázemi potvrdilo zlepšení v celkové rychlosti hledání, možností škálování výkonnosti i v efektivitě prosívání dat. Práce dále popisuje aplikaci databáze Sachem, službu založenou na dotazovacím jazyku SPARQL, která rozšiřuje existující sémantické datové služby o možnost zahrnout v dotazech i chemicky relevantní strukturní a podobnostní podmínky. Výsledek nabízí nové, jednodušší možnosti dotazování v dostupných heterogenních da- tových zdrojích. 1 UR - http://www.nusl.cz/ntk/nusl-396209 UR - http://hdl.handle.net/20.500.11956/106081 A2 - Bednárek, David A2 - Hoksza, David LA - eng KW - invertované indexy KW - inverted indexes KW - databáze KW - cheminformatics KW - substructure search KW - chemoinformatika KW - vyhledávání podstruktur KW - databases PY - 2019 PB - Univerzita Karlova, Ovocný trh 5, 116 36 Praha 1, http://cuni.cz/ ER -