Název:
Oprava nevalidních stromů vůči regulárním stromovým gramatikám
Překlad názvu:
Correction of Invalid Trees with Respect to Regular Tree Grammars
Autoři:
Svoboda, Martin ; Holubová, Irena (vedoucí práce) ; Bača, Radim (oponent) ; Pardede, Eric (oponent) Typ dokumentu: Disertační práce
Rok:
2015
Jazyk:
eng
Abstrakt: [eng][cze] XML documents and related technologies represent one of the most widespread ways how data on the Web are maintained and interchanged. Unfortunately, many of the real-world documents contain various types of consistency issues that prevent their successful automated processing. In this thesis we focus on the problem of the structural invalidity and its correction. In particular, having one potentially invalid XML document modeled as a tree, and a schema in DTD or XML Schema languages modeled as a regular tree grammar, our goal is to find all the minimal corrections of this tree. The model we proposed builds on top of the recursively nested structures of correction multigraphs, where the shortest paths are being found. For this purpose we formally introduce three correction strategies with different pruning optimizations applied. According to the experiments we performed, the refinement correction strategy not only significantly outperforms all the other existing approaches, but also guarantees important characteristics the others cannot. Powered by TCPDF (www.tcpdf.org)XML dokumenty a související technologie reprezentují jednu z nejrozšířenějších cest údržby a výměny dat na Webu. Velké množství reálných dokumentů ale bohužel obsahuje nejrůznější formy nekonzistence, které brání jejich úspěšnému a automatizovanému zpracování. V této práci se konkrétně věnujeme problému strukturální nevalidity a její korekce. Máme-li tedy jeden potenciálně nevalidní XML dokument modelovaný jako strom a současně jeho schéma v jazycích DTD nebo XML Schema modelované jako regulární stromová gramatika, naším cílem je najít všechny minimální opravy tohoto stromu. Námi navržený model využívá rekurzivně vnořovaných struktur korekčních multigrafů, ve kterých hledáme nejkratší cesty. Za tímto účelem formálně představíme tři korekční strategie s rozdílnými úrovněmi aplikovaných optimalizací. S ohledem na provedené experimenty pak konkrétně Refinement strategie nejenom významně překonává všechny ostatní existující přístupy, ale zároveň garantuje důležité charakteristiky, které jiné přístupy zaručit nemohou. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
nejkratší cesty; opravy; regulární stromové gramatiky; validita; XML; correction; regular tree grammars; shortest paths; validity; XML