Název:
Vysoce výkonné prohledávání a dotazování ve vybraných mnohadimenzionálních prostorech v přírodních vědách
Překlad názvu:
High-performance exploration and querying of selected multi-dimensional spaces in life sciences
Autoři:
Kratochvíl, Miroslav ; Bednárek, David (vedoucí práce) ; Glaab, Enrico (oponent) ; Svozil, Daniel (oponent) Typ dokumentu: Disertační práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] This thesis studies, implements and experiments with specific application-oriented approaches for exploring and querying multi-dimensional datasets. The first part of the thesis scrutinizes indexing of the complex space of chemical compounds, and details a design of high-performance retrieval system for small molecules. The resulting system is then utilized within a wider context of federated search in heterogeneous data and metadata related to the chemical datasets. In the second part, the thesis focuses on fast visualization and exploration of many-dimensional data that originate from single- cell cytometry. Self-organizing maps are used to derive fast methods for analysis of the datasets, and used as a base for a novel data visualization algorithm. Finally, a similar approach is utilized for highly interactive exploration of multimedia datasets. The main contributions of the thesis comprise the advancement in optimization and methods for querying the chemical data implemented in the Sachem database cartridge, the federated, SPARQL-based interface to Sachem that provides the heterogeneous search support, dimensionality reduction algorithm EmbedSOM, design and implementation of the specific EmbedSOM-backed analysis tool for flow and mass cytometry, and design and implementation of the multimedia...Tato práce studuje, implementuje a experimentuje se specifickými, aplikačně orien- tovanými přístupy pro prozkoumávání a dotazování multimediálních dat. První část práce zkoumá indexování komplexního prostoru chemických sloučenin a popisuje návrh vysoce výkonného systému pro dotazování v databázích malých molekul. Výsledný sys- tém je následně využit v širším kontextu federovaného vyhledávání v heterogenních dat- ech a metadatech souvisejících s chemickými informačními zdroji. V druhé části se práce zaměřuje na rychlou vizualizaci a prohledávání mnohadimenziálních dat pocháze- jících z jednobuněčné průtokové cytometrie. Ze samoorganizačních map odvozuje rychlé metody pro analýzu dat, a využívá je jako základ pro nový vizualizační algoritmus. Podobný přístup zpracování dat je nakonec využit pro vysoce interaktivní prohledávání multimediálních dat. Hlavní příspěvky a výsledky práce se sestávají z pokroku v opti- malizaci metod pro dotazování chemických dat implementovaných v databázi Sachem, federovaného rozhraní pro Sachem založeného na jazyce SPARQL které poskytuje pod- poru pro heterogenního dotazování, algoritmu EmbedSOM pro redukci dimenzionality, návrhu a implementace specifických analytických nástrojů pro průtokovou a hmotnos- tní cytometrii odvozených od algoritmu EmbedSOM, a návrhu a implementace...
Klíčová slova:
chemoinformatika; cytometrie; redukce dimenzionality; vyhledávání informací; vyhledávání multimédií; vysokodimenzionální data; cheminformatics; cytometry; dimensionality reduction; high-dimensional data; information retrieval; multimedia retrieval