Original title:
Optimization of Processing of Data Files in System DIRAC
Translated title:
Optimization of Processing of Data Files in System DIRAC
Authors:
Adam, Martin ; Holubová, Irena (advisor) ; Svoboda, Martin (referee) Document type: Bachelor's theses
Year:
2016
Language:
eng Abstract:
[eng][cze] DIRAC is a software framework for distributed computing providing a complete solution to one (or more) user community requiring access to distributed resources. In this thesis the DIRAC File Catalog (DFC) is extended by adding a DatasetManager module, thus adding support for datasets based on metadata queries. To improve the metaquery handling in the code, a new class MetaQuery was implemented that bundles the handling methods and adds normalization and optimization of the user input. The metaquery language was extended enabling logical operators and parenthesis. In the second part of the thesis the hypothesis that connecting the metadata part of the DIRAC File Catalog to a NoSQL database could improve metaquery performance is evaluated. Several databases are tested and the best performing one is then connected via an interface module to the DFC. Powered by TCPDF (www.tcpdf.org)Systém DIRAC je softwarový framework poskytující kompletní řešení pro jednu nebo více uživatelských komunit, které potřebují zajistit přístup k distribuovaným výpočetním zdrojům. V této práci je rozšířen DIRAC File Catalog (DFC) o modul DatasetManager, přidávající funkcionalitu datasetů definovaných dotazem nad metadaty. K vylepšení práce s dotazy v kódu systému je vyvinuta nová třída MetaQuery, která shlukuje obslužné metody a přidává normalizaci a optimalizaci dotazu na vstupu. Jazyk vyjadřující dotazy byl také rozšířen přidáním možnosti používat logické spojky a závorky. Druhá část práce se zabývá testováním hypotézy, že použití NoSQL databáze jako back-end pro metadatovou část DFC by přineslo vylepšení výkonu vyhledávání. Několik NoSQL databází je otestováno na datech podobných produkčním datům používaných systémem DIRAC. Nejvýkonější z testovaných databází je pak připojena k DFC použitím nového specializovaného rozhraní. Powered by TCPDF (www.tcpdf.org)
Keywords:
efficient processing of data files; metadata querying; NoSQL databases; System DIRAC; dotazování nad metadaty; efektivní zpracování datových souborů; NoSQL databáze; Systém DIRAC
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/81486