Original title:
Generátor vědeckých webových portálů
Translated title:
Scientific Web Portal Generator
Authors:
Pavelka, Petr ; Schwarz, Petr (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2009
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Generátor vědeckých webových portálů je rozsáhlý projekt, jehož cílem je vytvoření systému, který umožní budování webových portálů za účelem poskytování přehledu vědeckých prací z konkrétních oblastí. Jednou z částí tohoto projektu je i modul pro vyhledávání domovských stránek autorů publikací. Cílem této bakalářské práce je implementace právě tohoto modulu formou skriptu nebo programu. Náplní mé práce je nalezení vhodné metody extrakce sémantické informace ze značkovaného textu, návrh a vývoj systému, který tuto metodu realizuje a sestavení množiny, na které bude systém otestován. Výstupem bakalářské práce je prototyp programu nebo skriptu, který na základě vstupního souboru ve formátu XML se jmény vědeckých pracovníků vygeneruje výstupní XML soubor s URL adresami na jejich domovské stránky a stránky se seznamem publikací. Převážná část mé práce je věnována důkladné analýze daného problému z různých hledisek, rozčlenění na podproblémy a výběru nejvhodnějších variant řešení.
Scientific web portal generator is a large project. It's purpose is to create a system for building web portals for providing the view of science publications of authors. One of the parts of this project is module for searching of homepages. The goal of this bachelor's thesis is the implementation of of this module using the program or script. Content of this thesis is to find the best way of method of extraction the semantic information from the marked text, design and development o the system and creating the test set for the purpose of testing. The output of this thesis should be prototype of program or script, which will generate XML file with the URL adresses of homepages of authors. System should have XML input. Almost entire thesis is about analyzing of this problem and choosing the best solution.
Keywords:
Google; HTML; Internet; Python; regular expressions; Search API; SgmlLib; URL; UrlLib; XML; xml.dom.minidom; Yahoo; Yahoo BOSS; Google; HTML; Internet; Python; regulární výrazy; SgmlLib; URL; UrlLib; Vyhledávací API; XML; xml.dom.minidom; Yahoo; Yahoo BOSS
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/52830