Original title:
Automatické plánování, spouštění a monitoring výpočetních workflows na distribuovaných systémech
Translated title:
Automatic scheduling, execution and monitoring of computational workflows on distributed systems
Authors:
Jaroš, Marta ; Corbalan Gonzales, Julita (referee) ; Martinovič, Jan (referee) ; Jaroš, Jiří (advisor) Document type: Doctoral theses
Year:
2023
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Rutinní automatizované vykonávání složitých výpočetních procesů, tzv. workflows, se stalo naprosto klíčovým pro dosažení vysoké produktivity v různých oblastech vědy a výzkumu. Výpočetní workflows se v posledních několika letech staly důležitou abstrakcí mnoha reálných procesů a jevů, jako např. digitálních dvojčat, personalizované medicíny či na simulaci založené vědě obecně. Vykonání workflow lze vnímat jako orchestraci mnoha úloh s různými výpočetními požadavky a vzájemnými závislostmi. Vzhledem k výpočetní složitosti reálných workflows je jejich provádění možné pouze na výpočetních klastrech nebo v cloudu, kde hraje efektivní plánování a optimalizace provedení workflows klíčovou roli. Hlavním cílem této práce je umožnit automatizované a spolehlivé vykonání výpočetních workflows. Tyto workflows se často skládají z distribuovaných úloh, které jsou schopny běžet na několika výpočetních prostředcích najednou, dokonce umožňují toto množství měnit. Anglicky se tyto úlohy nazývají moldable tasks. Množství přiřazených prostředků ovlivňuje jak dobu vykonání workflow, tak i cenu výpočtu, ovšem ne stejnou měrou díky rozdílné výpočetní efektivitě. Proto tato práce zkoumá různé přístupy k plánování a optimalizaci vykonání workflows, převážně se zabývá optimalizačními technikami založenými na genetických algoritmech. Práce představuje tři optimalizační přístupy zkoumající dynamicky i staticky přidělované výpočetních zdroje. V procesu optimalizace hraje důležitou roli výkonnostní databáze, která je průběžně vytvářena a jejíž úlohou je uchovávat paralelní škálování prováděných úloh při různých vstupech. Řídkost a neúplnost výkonnostní databáze je řešena různými interpolačními metodami. Navrhované přístupy vykazují lepší využití výpočetních prostředků a umožňují prioritizaci různých optimalizačních kritérií, např. doby provádění workflow či ceny výpočtu. Finální implementace byla experimentálně ověřena na reálných workflows vykonávaných na klastrech v národním superpočítačovém centru IT4Innovations. Tato práce rovněž představuje návrh a implementaci komplexního systému pro automatické plánování, vykonávání a monitorování workflows na výpočetních klastrech. Systém rovněž disponuje dalšími funkcemi jako jsou účtování, reportování či odolnost vůči chybám. Tento systém, zvaný k-Dispatch, byl úspěšně komercializován v oblasti ultrazvukové neurostimulace a je nabízen společností Brainbox, Ltd.
Automated execution of computational workflows has become a critical issue in achieving high productivity in various research and development fields. Over the last few years, workflows have emerged as a significant abstraction of numerous real-world processes and phenomena, including digital twins, personalized medicine, and simulation-based science in general. Workflow execution can be viewed as an orchestration of multiple tasks with diverse computational requirements and interdependencies, determined by the workflow structure. Due to the complexity of workflows, execution can only be satisfied by remote computing clusters or clouds. As these resources are expensive, workflow scheduling plays a crucial role in the automation process. The primary objective of this thesis is to enable automated and reliable execution of computational workflows. Moldable tasks, defined within these workflows, permit execution across multiple computational resources. This affects both the workflow makespan and computational cost, but not equally due to varying computational efficiency. Consequently, the thesis investigates various approaches to workflow scheduling and execution optimization, focusing on methods based on genetic algorithms. Three optimization approaches-targeting both on-demand and static computational resource allocations-are examined and discussed. The optimization process is supported by a performance database, which is collected on-the-fly and maintains parallel scaling of executed tasks and diverse inputs. The sparsity and incompleteness of the performance database are addressed through different interpolation methods. The proposed approaches demonstrate better utilization of computing resources while allowing prioritization of various optimization criteria, such as workflow makespan and computational cost. The final implementation was experimentally validated using real workflows executed on high-performance computing clusters at the IT4Innovations national supercomputing center. Additionally, this thesis presents the design and development of a comprehensive system for automated workflow scheduling, execution offloading and monitoring, completed with features such as accounting, reporting, and fault tolerance. This system, named k-Dispatch, has been commercialized for the neuroscience market by Brainbox, Ltd.
Keywords:
cloud.; genetické algoritmy; HPC jako služba; plánování workflows; spouštění workflows; vysoce náročné počítání; vícekriteriální optimalizace; Workflows; cloud.; genetic algorithms; high performance computing; HPC as a service; multi-criteria optimization; workflow scheduling; Workflows; workflows execution
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/244216