|
Quantitative analysis of networked environments to improve performance of information systems
Petříček, Václav ; Pokorný, Jaroslav (vedoucí práce) ; Cox, Ingemar J. (oponent) ; Snášel, Václav (oponent)
In this thesis we encounter networks in three contexts i) as the citation networks between documents in citation databases CiteSeer and DBLP, ii) as the structure of e-government websites that is navigated by users and iii) as the social network of users of a photo-sharing site Flickr and a social networking site Yahoo!360. We study the properties of networks present in real datasets, what are the effects of their structure and how this structure can be exploited. We analyze the citation networks between computer science publications and compare them to those described in Physics community. We also demonstrate the bias of citation databases collected autonomously and present mathematical models of this bias. We then analyze the link structure of three websites extracted by exhaustive crawls. We perform a user study with 134 participants on these websites in an lab. We discuss the structure of the link networks and the performance of subjects in locating information on these websites. We finally exploit the knowledge of users' social network to provide higher quality recommendations than current collaborative filtering techniques and demonstrate the performance benefit on two real datasets.
|
|
Extrakce informací z webových stránek pomoci extrakčních ontologií
Labský, Martin ; Berka, Petr (vedoucí práce) ; Strossa, Petr (oponent) ; Vojtáš, Peter (oponent) ; Snášel, Václav (oponent)
S rozvojem Internetu a růstem množství textových dokumentů vzrostla během posledního desetiletí poptávka po nástrojích pro automatickou extrakci informací (IE - information extraction). Úkolem IE je nalézt v analyzovaných dokumentech údaje předem specifikovaného sémantického typu a tyto extrahovat pro potřeby dalších aplikací. Analyzovanými dokumenty mohou přitom být webové stránky, e-maily, dokumenty uvnitř firemních informačních systémů, ale i běžné textové zdroje jakými jsou noviny a časopisy. Aplikace, které nejčastěji využívají výsledky IE, zahrnují tradiční textové vyhledávače, které lze pomocí IE rozšířit o tzv. strukturované vyhledávání, dále systémy pro automatické zodpovídání otázek nebo např. aplikace pro podporu posuzování kvality webových stránek. Tato práce se zabývá vývojem metod a nástrojů pro IE, které jsou obzvláště vhodné pro extrakci ze semi-strukturovaných dokumentů, jakými jsou webové stránky, a pro situace kdy existuje málo trénovacích dat. Hlavním přínosem této práce je navržený přístup rozšířených extrakčních ontologií, který v sobě kombinuje využití extrakčních znalostí tří typů: (1) expertem zadané extrakční znalosti, (2) znalosti naučené z trénovacích dat a (3) znalosti indukované na základě opakující se formátovací struktury, která se často ve webových stránkách nachází. Naše hypotéza je, že současné využití všech tří typů znalostí extrakčním algoritmem může přispět k celkové přesnosti a robustnosti extrakce. Motivací pro tuto práci byl malý počet dosud popsaných metod pro IE, které by využívaly všechny zmíněné typy extrakční znalosti. Jako první je v tomto textu popsán statistický trénovaný přístup k IE založený na skrytých markovských modelech, který je dále integrován s několika trénovanými klasifikátory obrázků tak, aby bylo možno extrahovat jak textové položky, tak obrázky. Přístup je demonstrován a hodnocen na úloze extrakce popisů bicyklů nabízených různými internetovými obchody. Popsáno je i několik algoritmů pro klasifikaci obrázků s použitím různých množin rysů pro klasifikaci. Tyto trénované přístupy jsou posléze integrovány v rámci navržené metody rozšířených extrakčních ontologií, navazující na práci D.W. Embleyho, kterou rozšiřuje o současné využití všch tří výše zmíněných typů extrakční znalosti. Zamýšlenými přínosy extrakčních ontologií jsou rychlý vývoj funkčního prototypu, jeho plynulý přechod do finální IE aplikace a možnost využít různá množství tří typů extrační znalosti podle jejich dostupnosti. Protože extrakční ontologie je typicky odvozena z vhodné doménové ontologie a zůstává ve středu extrakčního procesu, minimalizuje tento přístup úsilí nutné pro zpětnou konverzi extrahovaných výsledků pro populaci zdrojové ontologie či datového schématu. Výsledky navrženého přístupu jsou prezentovány pro několik reálných domén.
|
| |
| |
| |
| |
| |
| |
| |
| |