Original title:
Optimization and Refinement of XML Schema Inference Approaches
Translated title:
Optimization and Refinement of XML Schema Inference Approaches
Authors:
Klempa, Michal ; Holubová, Irena (advisor) ; Stárka, Jakub (referee) Document type: Master’s theses
Year:
2011
Language:
eng Abstract:
[eng][cze] Although XML is a widely used technology, the majority of real-world XML documents does not conform to any particular schema. To fill the gap, the research area of automatic schema inference from XML documents has emerged. This work refines and extends recent approaches to the automatic schema inference mainly by exploiting an obsolete schema in the inference process, designing new MDL measures and heuristic excluding of excentric data inputs. The work delivers a ready-to-use and easy-to-extend implementation integrated into the jInfer framework (developed as a software project). Experimental results are a part of the work.I když je XML obecně už ivána technologie, větš ina XML dokumentů v oběhu neodpovídá ž ádnému specifikovanému schématu. Za této situace vznikl výzkum automatické konstrukce schémat z XML dokumentů. Tato práce zdokonaluje a rozš iřuje stávající přístupy automatické konstrukce schémat předevš ím využ itím starého schématu v procesu konstrukce, návrhnem nových MDL metrik a heuristickým vyloučením excentrických datových vstupů. Práce přináš í jednoduš e rozš ířitelnou a k použ ití připravenou implementaci ve formě pluginu do aplikace jInfer (vyvinuté v rámci softwarového projektu). Součástí práce jsou experimentální výsledky.
Keywords:
inference of regular expressions from positive examples; schema inference; XML; XML schema; odvozování regulárních výrazů z pozitivních příkladů; odvozování schématu; XML; XML schéma
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/49479