|
Data Lineage Analysis for Databricks platform
Potočeková, Natália ; Parízek, Pavel (vedoucí práce) ; Škoda, Petr (oponent)
Technológie založené na notebookoch, ako sú Databricks a Jupyter Notebooks, si v posledných rokoch získali popularitu vďaka svojej prispôsobivosti a jednoduchému používaniu.Notebook je interaktívne výpočtové prostredie, ktoré umožňuje používateľom vytvárať dokumenty obsahujúce kód, vizualizácie a vysvetľujúci text na jednom mieste. Notebooky poskytujú priestor na prieskum dát, analýzu a dokumentáciu, čo používateľom umožňuje jednoducho rozvíjať a prezentovať svoju prácu. Schopnosť kombinovať vykoná- vanie kódu s vysvetleniami a vizualizáciami v rámci jedného dokumentu podporuje re- produkovateľnosť, zlepšuje spoluprácu medzi členmi tímu a motivuje vedcov k efektívnej práci s dátami. V tejto práci sme analyzovali technológiu Databricks, aby sme rozšírili platformu Manta Flow, vysoko automatizovaný nástroj na analýzu datových tokov, na podporu tejto technológie. Navrhli sme a implementovali nový skener, ktorý poskytuje základnú podporu pre analýzu notebookov Databricks napísaných v jazykoch Python a Databricks SQL. Poskytujeme tiež implementáciu takzvaného zdieľaného kontextu, ktorý možno použiť na prenos informácií medzi rôznymi skenermi na platforme Manta Flow. Na vizualizáciu interakcií medzi jazykmi a skenermi sme rozšírili Manta graf o nový typ uzla, ktorý predstavuje zdieľaný kontext. Okrem toho sme...
|
|
Srovnání sekvenční a strukturních metod strojového učení pro predikci protein-ligand vazebných reziduí
Divín, Prokop ; Hoksza, David (vedoucí práce) ; Škoda, Petr (oponent)
Předpověd protein-ligand vazebných míst je důležitým úkolem, dovolujícím nám po- chopit interakce mezi proteinem a ligandem, jejichž pochopení je nezbytné při návrhu léčiv a rozvoji některých oblastí biologie. Ačkoliv již byly vytvořeny nástroje strojového učení pro predikci vazebných míst, tak doposud se vytvořené metody zajímaly pouze o predikci ze 3D struktury proteinu, která ale není pro většinu proteinů známá. Proto se v naší práci zajímáme o předpověď ze znalosti pouhé sekvence reziduí představující pro- tein. Srovnáváme zde možné přístupy k řešení tohoto problému. Srovnáváme reprezentaci reziduí pomocí jejich chemicko-fyzikálních vlastností s reprezentaci používající metody z rozpoznávání přirozeného jazyka. Dále porovnáváme zvolené metody strojového učení. Na závěr porovnáme naše výsledky s P2Rank metodou, jakožto s nejmodernější metodou používající k předpovědi protein-ligand vazebných míst 3D strukturu. 1
|
|
Framework pro vizuální analýzu strukturních stavů proteinů
Škrhák, Vít ; Hoksza, David (vedoucí práce) ; Škoda, Petr (oponent)
Proteiny se podílí na většině molekulárních procesů v žívých organismech a jejich studium proto nachází uplatnění v mnoha aplikacích. 3D struktura hraje zásadní roli ve schopnosti proteinu vázat se na další molekuly a tím se podílet na biologických procesech. Nicméně struktura proteinu se může v čase měnit v závislosti na externích faktorech, jako je třeba navázání molekuly, která může způsobit změnu konformace. Cílem práce je vytvořit softwarový framework, který by umožnil udržovat pro sadu proteinů informace o jejich konformacích, tyto data vytěžovat a vizualizovat ve webovém prostředí. Celý systém bude aplikován na existující sadu konformací pro struktury z PDB, ale zároveň bude dostatečně obecný, aby umožnil nahrání a analýzu nových datových sad. 1
|
|
ServIS - a web system for companies dealing with excavator repairs
Truchan, Milan ; Ježek, Pavel (vedoucí práce) ; Škoda, Petr (oponent)
Cieľom tejto práce bolo vytvoriť softvérové dielo pre malé firmy zaoberajúce sa zemnými a výkopovými prácami, opravou a predajom bagrov, ktoré nemajú prístup k vhodnému softvérovému riešeniu pre svoju činnosť. Pri riešení práce sme vychádzali z konzultácií s majiteľom jednej z takýchto firiem. Vzniknutá webová aplikácia, napísaná pomocou frameworku Blazor Server, predstavuje riešenie problému. Je schopná zobraziť ponuku (bagre, prídavné zariadenia) a umožňuje užívateľom odosielať dopyt (v podobe emailov) na tieto ponuky. V aplikácii tiež existuje aukcia, kde sa môžu dražiť opravené bagre. Užívatelia si tiež môžu v aplikácií vytvoriť účet. Vymenované funkcionality môžu využívať prihlásení aj neprihlásení užívatelia. Bežní prihlásení užívatelia nemusia vyplňovať informácie o sebe vo formulároch pri dopytovaní sa na ponuku. Prihlásení administrátori majú možnosť spravovať stránku, t. j. pridávať nové, editovať a mazať existujúce ponuky, odpovedať na správy atď.
|
|
Object Usage Analyser for TypeScript
Pácal, Michal ; Husák, Robert (vedoucí práce) ; Škoda, Petr (oponent)
Při programování vývojáři často potřebují zjistit, kde a jak se používá určitá proměnná nebo objekt. Pro jazyky TypeScript a JavaScript jsou jedinými dostupnými nástroji pro zodpovězení těchto otázek nástroje pro vyhledávání referencí a zobrazení grafu volání. Tyto nástroje však začínají ztrácet účinnost ve větších pro- jektech, kde mohou vracet stovky nebo dokonce tisíce výsledků setřízených pouze podle názvů zdrojových souborů. V této práci jsme vyvinuli rozšíření pro Visual Studio Code, který dokáže v projektu vyhledat reference na proměnné a roztřídit je do skupin na základě použití. Podobnou analýzu dokáže provést i s argumenty funkcí na základě pozice argumentu. Naše řešení jsme vyhodnotili a předvedli několik reálných příkladů použití.
|
|
Konceptuální modelování pomocí schematických kategorií
Pražák, Dennis ; Svoboda, Martin (vedoucí práce) ; Škoda, Petr (oponent)
Tato práce se zabývá vývojem grafické aplikace pro konceptuální modelování databázo- vých schémat bez předem známého paradigmatu. Účelem konceptuálního modelu je umožnit popis struktury dat na abstraktní úrovni nezávisle na jejich fyzickém uložení. V dnešní době se však často využívá mnoho různých logických modelů databázových systémů. Vyjadřovací prostředky známých konceptuálních modelů jako ER a UML někdy na popis struktury dat pro cílové logické modely nestačí. Využijeme proto nedávno vzniklého konceptu zvaného schematické kategorie, které jsou obecnější, mají vyšší vyjadřovací sílu a unifikují modelová- ní dat pro různé databázové systémy včetně těch multi-modelových. Schematické kategorie tímto rovněž mažou hranice mezi konceptuální a logickou vrstvou datového modelování. Vý- sledná grafická webová aplikace umožňuje modelovat schémata ER modelu, který je velmi dobře známý, a jejich automatický převod na schematické kategorie s uživatelsky přívětivou vizualizací. 1
|
|
A system for community package transport
Wikarská, Miriam ; Hnětynka, Petr (vedoucí práce) ; Škoda, Petr (oponent)
Práca je založená na tom, že aplikácia, ktorá by umožňovala komunitnú prepravu zásielok neexistuje. Práca prezentuje analýzu funkcií, ktoré by ta- káto aplikácia mohla mať. Aplikácia je analyzovaná cez jej prípady použitia, konceptuálny model a ďalšie požiadavky. Práca ďalej prezentuje podstúpené implementačné kroky pri vytváraní prototypovej implementácie. Práca vy- svetľuje komunikáciu v rámci aplikácie, perzistenciu dát, overovanie jej pou- žívateľov a komunikáciu medzi používateľom a aplikáciou. Prototyp aplikácie je implementovaný v programovacom jazyku Java. Práca ukazuje, že imple- mentácia takejto aplikácie je možná, na príklade vykresľuje zamýšľané pou- žitie aplikácie a porovnáva prototyp aplikácie s niektorými službami alebo aplikáciami, ktoré prepravujú zásielky. Práca nakoniec sumarizuje splnené ciele a predstavuje možnosti budúceho rozšírenia aplikácie.
|
|
Automatická extrakce schématu z RDF dat
Kuželík, Jan ; Škoda, Petr (vedoucí práce) ; Nečaský, Martin (oponent)
Resource Description Framework (RDF) je datový model pro reprezentaci sémantických dat. RDF umožňuje uložení informací bez pevného schématu. To poskytuje více flexibility, ale absence pevného schématu představuje významnou vstupní bariéru pro využití těchto dat. Jazyk SPARQL se používá pro dotazování databází s RDF daty. Existuje několik řešení v oblasti extrakce schématu s využitím jazyka SPARQL. Většina řešení se přiklání k poskytnutí vizuální reprezentace schématu spíše než k tvorbě okamžitě použitelné výstupu. Mnoho těchto řešení provádí velmi důkladnou a dlouhou extrakci, která není vhodná pro prostředí webové aplikace, a některé nejsou dokonce dostupné online. Tato práce představuje TypeSPARQ, open-source webovou aplikaci pro ex- trakci schématu ze SPARQL endpointů. TypeSPARQ vytváří vizualizaci schématu koncového bodu a nabízí možnosti jeho exportu. TypeSPARQ je in- tegrovaná s knihovnou LDKit, která poskytuje bezpečný typovaný přístup ke SPARQL endpointům pro TypeScript aplikace. Tyto nástroje dohromady nabízejí TypeScriptovým vývojářům bezproblémový průběh vývoje od průzkumu koncového bodu po jeho integraci do projektů. 1
|
|
Data Lineage Analysis for PySpark and Python ORM Libraries
Jurčo, Andrej ; Parízek, Pavel (vedoucí práce) ; Škoda, Petr (oponent)
Vo svete ETL nástrojov a spracovania dát je Python jedným z najčastejšie použí- vaných jazykov. Skripty napísané v jazyku Python, ktoré definujú manipuláciu s dá- tami, zvyčajne používajú rovnakú knižnicu, PySpark, čo je Python API pre framework Spark, spoločne s databázovými knižnicami, využívajúc ich ORM funkcionalitu. Táto funkcionalita zvyčajne funguje podobným spôsobom vo väčšine relevantných knižníc. Nedávno bol MANTA Flow, vysoko automatizovaný nástroj na analýzu data lineage, rozšírený o skener jazyka Python a teraz je vo fáze rozširovania o podporu bežných frameworkov. V tejto práci sme analyzovali knižnicu PySpark a technológiu SQLAlchemy ORM s cieľom rozšíriť Python skener firmy MANTA o podporu týchto dvoch často používaných nástro- jov. V prípade knižnice PySpark sme navrhli a implementovali jadro pluginu pre skener jazyka Python, ktorý podporuje elementárnu funkcionalitu. Plugin je schopný analyzo- vať rôzne vstupné a výstupné možnosti DataFramov dostupné v PySparku pre súborové aj databázové dátové zdroje a je schopný propagácie dátových tokov počas transformá- cií s primeranou úrovňou overaproximácie, ako sme v práci demonštrovali. V prípade SQLAlchemy ORM sme navrhli riešenie, ktoré umožní skeneru analyzovať zdrojový kód využívajúci funkctionalitu ORM a jeho jadro by bolo možné použiť aj pre...
|
|
Preserving control over user data in the hospitality industry with Solid
Tóth, Gergely ; Klímek, Jakub (vedoucí práce) ; Škoda, Petr (oponent)
Cílem této práce je prozkoumaní použitelnosti Solidu, ekosystému decentralizovaných datových úložišť, pro zpracování uživatelských dat v hoteliérství. Zadefinujeme poža- davky a případy použití pro naše aplikace a podíváme se na související řešení v této oblasti. Na základě stanovených specifikací navrhneme architekturu a obvyklé hotelové postupy jako rezervace, check-in, check-out s využitím Solid Podů fungujících jako da- tová úložiště. Navíc zkoumáme různé postupy týkající se nakládání s osobními údaji hostů. Výsledkem práce je prototyp hotelového systému, který zahrnuje webový portál orientovaný na hosty, aplikace na řízení hotelu a editor profilu Solid. 1
|