Národní úložiště šedé literatury Nalezeno 32 záznamů.  začátekpředchozí23 - 32  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Neural Network Based Named Entity Recognition
Straková, Jana ; Hajič, Jan (vedoucí práce) ; Černocký, Jan (oponent) ; Konopík, Miloslav (oponent)
Název práce: Rozpoznávání pojmenovaných entit pomocí neuronových sítí Autor: Jana Straková Ústav: Ústav formální a aplikované lingvistiky Vedoucí doktorské práce: prof. RNDr. Jan Hajič, Dr., Ústav formální a apliko- vané lingvistiky Abstrakt: Obor rozpoznávání pojmenovaných entit v češtině (tj. úkol auto- maticky identifikovat a klasifikovat významné části textu, jako například jména lidí, míst a organizací) se významně rozvinul po vydání českého korpusu poj- menovaných entit, Czech Named Entity Corpus (CNEC). Tato doktorská práce předkládá autorské výsledky v oblasti rozpoznávání pojmenovaných entit, ze- jména v češtině. Publikuje práci a výzkum provedený v průběhu přípravy CNEC a později během jeho evaluace. Dále shrnuje autorské výsledky, které před- stavují nejlepší známé výsledky v rozpoznávání českých pojmenovaných entit. Na základě jednoduché neuronové sítě s výstupní funkcí softmax a standardní sadou klasifikačních rysů je popsána metodologie a výsledky, ze kterých později vznikl otevřený software pro rozpoznávání pojmenovaných entit, NameTag. Dok- torská práce je zakončena popisem rozpoznávače založeném na rekurentních neu- ronových sítích s embeddingy slov a embeddingy založenými na znacích, které představují výsledky současného výzkumu v oblasti neuronových sítí. Rozpozná- vač nevyžaduje tvorbu...
Porovnávání anotačních nástrojů
Prexta, Dávid ; Otrusina, Lubomír (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Táto práca sa zaoberá problematikou porovnávania anotačných nástrojov pri práci s rozličnými dátovými sadami a získaním výsledkov porovnávania použiteľných pre vylepšenie znalostnej bázy anotátorov. V práci sú analyzované existujúce riešenia a ich nedostatky, z ktorých sú vyvodené požiadavky na nové riešenie. Ďalšie časti sa zaoberajú návrhom, implementáciou a testovaním výsledného nástroja, ktorý je v závere zhodnotený a sú navrhnuté možné rozšírenia do budúcna.
Named Entity Recognition and Linking
Taufer, Pavel ; Straka, Milan (vedoucí práce) ; Kliegr, Tomáš (oponent)
Cílem této diplomové práce je navrhnout a naimplementovat algoritmus pro rozpoznávání a propojování pojmenovaných entit. Součástí tohoto cíle je také navrhnutí a vytvoření báze znalostí, která je v algoritmu použita. Vzhledem k omezenému množství dat pro jiné jazyky než pro angličtinu chceme, aby naši metodu bylo možné natrénovat na jednom jazyku a naučené parametry přenést na jiné jazyky (ve kterých není tolik trénovacích dat). Práce se skládá z popisu dostupných bází znalostí, existujicích metod, navrhnutí a implementace vlastní báze znalostí a metody pro propojování pojmenovaných entit. Na několika variantách tradičního datasetu AIDA CoNLL-YAGO dosahuje implementovaný algoritmus nejlepších známých výsledků. Na vzorku českých anotovaných dat z datasetu PDT dosahuje algoritmus pomocí parametrů natrénovaných na anglickém CoNLL datasetu srovnatelných výsledků. Powered by TCPDF (www.tcpdf.org)
Algorithms for named entities recognition
Winter, Luca ; Heriban, Pavel (oponent) ; Šťastný, Jiří (vedoucí práce)
The aim of this work is to find out which algorithm is the best at recognizing named entities in e-mail messages. The theoretical part explains the existing tools in this field. The practical part describes the design of two tools specifically designed to create new models capable of recognizing named entities in e-mail messages. The first tool is based on a neural network and the second tool uses a CRF graph model. The existing and newly created tools and their ability to generalize are compared on a subset of e-mail messages provided by Kiwi.com.
Kontrola konzistence informací extrahovaných z textu
Stejskal, Jakub ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému.
Struktury trie pro zpracování rozsáhlých textových dat
Rajčok, Andrej ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Táto práca rozoberá spracovanie prirodzeného jazyka so zameraním sa na morfologickú analýzu a spoznávanie pomenovaných entít. Rozoberá efektívne vyhľadávanie v slovníkoch a v ňom používaných špecializovaných stručných štruktúr a ich praktické implementácie. Popisuje návrh a implementáciu systému pre spoznávanie pomenovaných entít a morfologického analyzátora za využitia stručných štruktúr a nakoniec porovnáva a testuje ich efektivitu a rýchlosť.
Rozpoznávání pojmenovaných entit
Rylko, Vojtěch ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
V této práci je načrtnuta historie a jsou představena teoretická východiska rozpoznávání pojmenovaných entit, na jejichž základě je implementován systém v jazyce C++ pro detekci a zjednoznačňování pojmenovaných entit.  Systém používá lokální metodu zjednoznačňování a pracuje se statistikami vytvořenými z rozsáhlých webových dat Wikilinks. S vyvinutým systémem jsou prováděny experimenty a je srovnáván s alternativními implementacemi. Experimenty prokazují dostatečnou úspěšnost a rychlost systému. Systém se účastní soutěže  Entity Recognition and Disambiguation Challenge 2014.
Klasifikace entit pomocí Wikipedie a WordNetu
Kliegr, Tomáš ; Rauch, Jan (vedoucí práce) ; Berka, Petr (oponent) ; Smrž, Pavel (oponent) ; Žabokrtský, Zdeněk (oponent)
Dizertační práce se věnuje problému klasifikace entit reprezentovaných jmennými frázemi v textu. Cílem je vyvinout metodu pro automatizovanou klasifikaci těchto entit v datasetech skládajících se z krátkých textových fragmentů. Důraz je kladen na metody učení bez učitele, nebo kombinaci učení s učitelem a bez učitele (angl. semi-supervised learning), přičemž nebudou vyžadovány trénovací příklady. Třídy jsou buď automaticky stanoveny nebo zadány uživatelem. Náš první pokus pro řešení problému klasifikace entit je algoritmus Sémantického Mapování Konceptů (angl. Semantic Concept Mapping -- SCM). Tento algoritmus mapuje jmenné fráze i cílové třídy na koncepty thesauru WordNet. Grafové míry podobnosti pro WordNet jsou použity pro přiřazení nejbližší třídy k dané jmenné frázi. Pokud jmenná fráze není namapována na žádný koncept, potom je použit algoritmus Cíleného Objevování Hyperonym (angl. Targeted Hypernym Discovery -- THD). Tento algoritmus extrahuje s pomocí lexiko-syntaktických vzorů hyperonymum z článku na Wikipedii, který danou jmennou frázi definuje. Toto hyperonymum je použito k namapování jmenné fráze na koncept ve WordNetu. Hyperonymum může být samo o sobě také považováno za výsledek klasifikace. V takovém případě je dosaženo klasifikace bez učitele. Algoritmy SCM a THD byly navrženy pro angličtinu. I když je možné oba algoritmy přizpůsobit i pro jiné jazyky, byl v rámci dizertační práce vyvinut algoritmus Pytel článků (angl. Bag of Articles -- BOA), který je jazykově agnostický, protože je založen na statistickém Rocchio klasifikátoru. Díky zapojení Wikipedie jako zdroje informací pro klasifikaci nevyžaduje BOA trénovací data. WordNet je využit novým způsobem, a to pro výpočet vah slov, jako pozitivní seznam slov a pro lematizaci. Byl také navržen disambiguační algoritmus pracující s globálním kontextem. Algoritmus BOA považujeme za hlavní přínos dizertace. Experimentální hodnocení navržených algoritmů je provedeno na datasetu WordSim353 používaném pro hodnocení systémů pro výpočet podobnosti slov (angl. Word Similarity Computation -- WSC), a na datasetu Český cestovatel, který byl vytvořen speciálně pro účel našeho výzkumu. Na datasetu WordSim353 dosahuje BOA Spearmanova korelačního koeficientu 0.72 s lidským hodnocením. Tento výsledek je blízko hodnotě 0.75 dosažené algoritmem ESA, který je podle znalosti autora nejlepším algoritmem pro daný dataset nevyžadujícím trénovací data. Algoritmus BOA je ale výrazně méně náročný na předzpracování Wikipedie než ESA. Algoritmus SCM nedosahuje dobrých výsledků na datasetu WordSim353, ale naopak předčí BOA na datasetu Český cestovatel, který byl navržen speciálně pro úlohu klasifikace entit. Tato nesrovnalost vyžaduje další výzkum. V samostatném hodnocení THD na malém počtu pojmenovaných entit z datasetu Český cestovatel bylo správné hyperonymum nalezeno v 62 % případů. Další dosažené výsledky samostatného významu zahrnují novou funkci pro vážení slov založenou na WordNetu, kvalitativní a kvantitativní vyhodnocení možností využití Wikipedie jako zdroje textů pro objevování hyperonym s využitím lexiko-syntaktických vzorů a zevrubnou rešerši měr podobnosti nad WordNetem zahrnující též jejich výkonnostní porovnání na datasetech WordSim353 a Český cestovatel.
Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Pouzar, Aleš ; Svátek, Vojtěch (vedoucí práce) ; Labský, Martin (oponent)
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě extrakčních pravidel lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní formátovací struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. Dosažená úspěšnost v extrakci nabídek notebooků ukázala, že by extrakční ontologie, popisující jeden nebo několik málo typů produktů, mohla být úspěšně využita v kombinaci s metodami pro indukci wrapperů a tím automaticky extrahovat nabídky všech typů produktů na úrovni webu.
Extrakce informací z textu
Michalko, Boris ; Labský, Martin (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Nováček, Jan (oponent)
Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií.

Národní úložiště šedé literatury : Nalezeno 32 záznamů.   začátekpředchozí23 - 32  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.