Název:
Vylepšení distribuovaného dotazovacího systému pro velká grafová data
Překlad názvu:
Distributed Graph Query Engine Improvements for Big Data Graphs
Autoři:
Faltín, Tomáš ; Yaghob, Jakub (vedoucí práce) ; Tommasini, Riccardo (oponent) ; Vora, Keval (oponent) Typ dokumentu: Disertační práce
Rok:
2023
Jazyk:
eng
Abstrakt: [eng][cze] Graph pattern matching queries enable flexible graph exploration, similar to what SQL provides for relational databases. In this thesis, we design and improve key compo- nents of a distributed in-memory graph querying engine. First, we optimize a distributed depth-first search (DFS) asynchronous pattern matching algorithm by combining it with breadth-first search (BFS), thus improving the overall engine performance by leveraging strengths of both approaches: ability to strictly bound the consumed memory of DFS and better parallelization, locality, and load balancing of BFS. Second, we further ex- tend the distributed pattern matching with a novel solution for reachability regular path queries (RPQs) that supports variable-length patterns based on regular expressions. Our design retains the underlying runtime characteristics, allowing for efficient memory con- trol during path exploration with great performance and scalability. Third, we improve query planning, which is one of the most crucial aspects impacting the performance of any querying system. Choosing the "best" query plan is challenging due to the many aspects influencing the performance, especially in a distributed system. We present a lightweight mechanism for gathering runtime information, which can be used to select the most effective query plan...Grafové dotazy sloužící k vyhledávání vzorů v grafech dovolují flexibilní zkoumání grafů podobně jako SQL relačním datům. V této práci navrhujeme a vylepšujeme klíčové komponenty distribuovaného grafového dotazovacího systému běžícího pouze v hlavní paměti. Zaprvé jsme optimalizovali vyhledávání vzorů, které používá distribuované asyn- chronní vyhledávání do hloubky (DFS) za pomocí prohledávání do šířky (BFS). Chytrou kombinací obou přístupů jsme využili jejich předností. DFS umožňuje striktně omezit spotřebovanou paměť a BFS zase umožňuje dosahovat lepších výkonů díky lepší par- alelizovatelnosti, vyvažování zátěže a lepší lokalitě přístupů. Zadruhé jsme představili originální algoritmus pro distribuované vyhledávání dosažitelných cest za pomocí reg- ulárních výrazů (anglicky RPQ). Tyto dotazy dovolují vyhledávat cesty libovolné délky za pomocí syntaxe podobné regulárním jazykům. Náš návrh zachovává vlastnosti DFS algoritmu, nad kterým je algoritmus postaven. Dovoluje efektivně kontrolovat spotřebu paměti během vyhledávání, a taktéž dosahuje skvělého výkonu a škálovatelnosti. Zatřetí jsme vylepšili plánování dotazů, což je jedna z nejdůležitějších součástí každého dota- zovacího systému, jelikož velkou měrou ovlivňuje jeho výkon. Ovšem vybrat "nejlepší" plán je velmi složité, jelikož výkon systému,...
Klíčová slova:
distribuované grafové databáze|distribuované zpracování grafů|distribuované dotazování v grafech; distributed graph databases|distributed graph processing|distributed graph querying