Název:
Modularizace extrakce dat o veřejných zakázkách do RDF
Překlad názvu:
Modularization of extraction of public procurement data to RDF
Autoři:
Káňa, Jakub ; Mynarz, Jindřich (vedoucí práce) ; Dudáš, Marek (oponent) Typ dokumentu: Bakalářské práce
Rok:
2014
Jazyk:
cze
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: [cze][eng] Bakalářská práce se zabývá rozšířením extraktoru dat o veřejných zakázkách získaných ze serveru Tenders Electronic Daily. Tato práce pokrývá v modularizovaném extraktoru dalších 10 typů oznámení o veřejných zakázkách. Data jsou z XML souborů pomocí transformace převáděny do formátu RDF/XML. Rozšíření je realizováno pro formáty publikovaných dat TED-XML a META-XML. Práce dále rozšiřuje a osamostatňuje knihovny funkcí. Nově vytvořená knihovna funkcí je v práci zdokumentována. Pro zajištění správnosti extrahovaných dat z hlediska syntaxe a také použité ontologie jsou použity validační nástroje. Pro validaci syntaxe RDF/XML je použit nástroj Apache Jena Riot a pro testování správnosti výstupů z hlediska použití Public Contracts Ontology nástroj RDFUnit. Přínosem této práce je praktická část, která umožňuje převádět data z věstníku veřejných zakázek členských států EU do formátu RDF/XML. Vytvořené rozšíření umožňuje extrahovat data z oznámení typu F04 - F09 a F15 - F18.The bachelor thesis deals with extension of data extractor of public contracts gained from server Tenders Electronic Daily. The thesis covers a modularized extractor 10 new types of public contract notices. The data is retrieved from XML by using transformation scenario and they are extracted to RDF/XML data format. The extension is realized on TED-XML and META-XML formats of published data. The work also expands and creates independent library of functions. The library is documented. To ensure the accuracy of the extracted data in terms of syntax and also used ontologies there are used validation tools. For command line syntax validation Jena Apache Riot and for testing the correctness of output in terms of use Public Contracts Ontology RDFUnit testing tool. The contribution of this work is the practical part, allowing you to convert semi-structured data from the Journal of procurement of EU Member States into a fully structured data. Enhanced extractor allows you to extract data from the notices type F04 - F09 and F15 - F18.
Klíčová slova:
data; extrakce; Linked Data; ontologie; RDF/XML; veřejné zakázky; XSLT; data; extraction; Linked Data; ontology; public procurement; RDF/XML; XSLT
Instituce: Vysoká škola ekonomická v Praze
(web)
Informace o dostupnosti dokumentu:
Dostupné v digitálním repozitáři VŠE. Původní záznam: http://www.vse.cz/vskp/eid/45493