|
Systém pro aktualizaci anotací v korpusech
Vrša, Štěpán ; Smrž, Pavel (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Cílem této práce je vytvoření systému, který umožní uživatelsky přívětivým způsobem zobrazit a aktualizovat anotace velkých korpusových dat ve formátu MG4J. Tato práce analyzuje stávající řešení správy korpusových dat a anotací a stručně popisuje netriviální nástroje SEC a MG4J, které jsou využity v řešení. Celý systém je založen na distribuci dat a serverové komunikaci. Stěžejním prvkem systému je aktualizace anotací v MG4J a následná aktualizace indexů MG4J. Systém je schopný provést výše zmíněné operace s přijatelnou dobou odezvy. Tato práce se také zabývá aktualizací entit ve znalostní databázi.
|
|
Komponent pro sémantické obohacení
Doležal, Jan ; Otrusina, Lubomír (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Tato diplomová práce se zabývá komponentou pro sémantické obohacení textu (SEC), která ve vstupním textovém dokumentu nebo vertikálním textu vyhledá entity (např. osoby nebo místa) a informace o nich vrátí na výstup. Cíle této komponenty jsou vytvoření jednotného rozhraní pro nástroje rozpoznávající entity v textu, umožnění paralelního zpracování dokumentů, úspora operační paměti při využívání znalostní báze a zrychlení přístupu k jejímu obsahu. K tomu byl specifikován výstup pro nástroje rozpoznávající entity v textu, implementován nástroj pro uložení předzpracované znalostní báze do sdílené paměti a při tvorbě komponenty bylo využito schéma klient-server.
|
| |
|
Automatická tvorba korpusů
Šantavý, Marek ; Černocký, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Obsahem práce je představení způsobu formátování a značkování textových dat korpusu. Nad vhodně reprezentovanými dokumenty vytváří vrstvu pro jejich vzájemné porovnání s cílem určení míry podobnosti mezi nimi. Nástroje, které výpočty podobnosti zajišťují, jsou základem automatizovaného systému pro vytváření a doplňování existujícího korpusu dat. Mezi dvěma základními přístupy je možno volit podle požadavku výpovědní hodnoty výsledku. Prostředkem pro získávání dat nových je nástroj stahování obsahu webu.
|
| |
|
Komponent pro sémantické obohacení
Doležal, Jan ; Otrusina, Lubomír (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Tato diplomová práce se zabývá komponentou pro sémantické obohacení textu (SEC), která ve vstupním textovém dokumentu nebo vertikálním textu vyhledá entity (např. osoby nebo místa) a informace o nich vrátí na výstup. Cíle této komponenty jsou vytvoření jednotného rozhraní pro nástroje rozpoznávající entity v textu, umožnění paralelního zpracování dokumentů, úspora operační paměti při využívání znalostní báze a zrychlení přístupu k jejímu obsahu. K tomu byl specifikován výstup pro nástroje rozpoznávající entity v textu, implementován nástroj pro uložení předzpracované znalostní báze do sdílené paměti a při tvorbě komponenty bylo využito schéma klient-server.
|
|
Systém pro aktualizaci anotací v korpusech
Vrša, Štěpán ; Smrž, Pavel (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Cílem této práce je vytvoření systému, který umožní uživatelsky přívětivým způsobem zobrazit a aktualizovat anotace velkých korpusových dat ve formátu MG4J. Tato práce analyzuje stávající řešení správy korpusových dat a anotací a stručně popisuje netriviální nástroje SEC a MG4J, které jsou využity v řešení. Celý systém je založen na distribuci dat a serverové komunikaci. Stěžejním prvkem systému je aktualizace anotací v MG4J a následná aktualizace indexů MG4J. Systém je schopný provést výše zmíněné operace s přijatelnou dobou odezvy. Tato práce se také zabývá aktualizací entit ve znalostní databázi.
|
|
Automatická tvorba korpusů
Šantavý, Marek ; Černocký, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Obsahem práce je představení způsobu formátování a značkování textových dat korpusu. Nad vhodně reprezentovanými dokumenty vytváří vrstvu pro jejich vzájemné porovnání s cílem určení míry podobnosti mezi nimi. Nástroje, které výpočty podobnosti zajišťují, jsou základem automatizovaného systému pro vytváření a doplňování existujícího korpusu dat. Mezi dvěma základními přístupy je možno volit podle požadavku výpovědní hodnoty výsledku. Prostředkem pro získávání dat nových je nástroj stahování obsahu webu.
|