Národní úložiště šedé literatury Nalezeno 14 záznamů.  předchozí11 - 14  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Named Entity Recognition and Linking
Taufer, Pavel ; Straka, Milan (vedoucí práce) ; Kliegr, Tomáš (oponent)
Cílem této diplomové práce je navrhnout a naimplementovat algoritmus pro rozpoznávání a propojování pojmenovaných entit. Součástí tohoto cíle je také navrhnutí a vytvoření báze znalostí, která je v algoritmu použita. Vzhledem k omezenému množství dat pro jiné jazyky než pro angličtinu chceme, aby naši metodu bylo možné natrénovat na jednom jazyku a naučené parametry přenést na jiné jazyky (ve kterých není tolik trénovacích dat). Práce se skládá z popisu dostupných bází znalostí, existujicích metod, navrhnutí a implementace vlastní báze znalostí a metody pro propojování pojmenovaných entit. Na několika variantách tradičního datasetu AIDA CoNLL-YAGO dosahuje implementovaný algoritmus nejlepších známých výsledků. Na vzorku českých anotovaných dat z datasetu PDT dosahuje algoritmus pomocí parametrů natrénovaných na anglickém CoNLL datasetu srovnatelných výsledků. Powered by TCPDF (www.tcpdf.org)
Processing of Turkic Languages
Ciddi, Sibel ; Zeman, Daniel (vedoucí práce) ; Hlaváčová, Jaroslava (oponent)
Název: Zpracování turkických jazyků Autor: Sibel Ciddi Katedra: Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze Vedoucí diplomové práce: RNDr. Daniel Zeman, Ph.D. Abstrakt: Tato práce představuje a na příkladu turečtiny demon- struje několik metod morfologického zpracování vhodných pro tur- kické jazyky, jejichž počítačové zpracování přináší sadu specifických problémů. Přínosem práce je také značné rozšíření lexikální databáze a souvisejících dat potřebných pro morfologickou analýzu a syntézu; tato data jsou nyní volně dostupná veřejnosti. S ohledem na vysoce produktivní a aglutinační tureckou morfologii a s ní spojenou řídkost dat byl omezený rozsah slovníku významnou překážkou počítačového zpracování jazyka, zvláště pokud jde o zpracování statistickými me- todami. Proto jsme důkladně otestovali a vyhodnotili veřejně do- stupný, na konečných převodnících založený morfologický analyzátor TRmorph. Zaměřili jsme se na rozšíření záběru a slovníku tohoto ana- lyzátoru. Za tím účelem jsme navrhli heuristické metody pro získávání pojmenovaných entit a víceslovných výrazů. Další vylepšení spočívá ve slovníkovém rozpoznávání...
Rozpoznávání pojmenovaných entit
Rylko, Vojtěch ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
V této práci je načrtnuta historie a jsou představena teoretická východiska rozpoznávání pojmenovaných entit, na jejichž základě je implementován systém v jazyce C++ pro detekci a zjednoznačňování pojmenovaných entit.  Systém používá lokální metodu zjednoznačňování a pracuje se statistikami vytvořenými z rozsáhlých webových dat Wikilinks. S vyvinutým systémem jsou prováděny experimenty a je srovnáván s alternativními implementacemi. Experimenty prokazují dostatečnou úspěšnost a rychlost systému. Systém se účastní soutěže  Entity Recognition and Disambiguation Challenge 2014.
Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Pouzar, Aleš ; Svátek, Vojtěch (vedoucí práce) ; Labský, Martin (oponent)
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě extrakčních pravidel lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní formátovací struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. Dosažená úspěšnost v extrakci nabídek notebooků ukázala, že by extrakční ontologie, popisující jeden nebo několik málo typů produktů, mohla být úspěšně využita v kombinaci s metodami pro indukci wrapperů a tím automaticky extrahovat nabídky všech typů produktů na úrovni webu.

Národní úložiště šedé literatury : Nalezeno 14 záznamů.   předchozí11 - 14  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.