Národní úložiště šedé literatury Nalezeno 142 záznamů.  začátekpředchozí133 - 142  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Syntaktický analyzátor pro český jazyk
Beneš, Vojtěch ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce)
Diplomová práce popisuje teoretický návrh a vytvoření syntaktického analyzátoru pro český jazyk pracujícího s frázovým přístupem ke stavbě věty. Využívaná frázová syntaxe je založena na slovních druzích, které jsou sdružovány do větších slovních celků - frází. Implementovaný program pracuje s manuálně sestaveným anotovaným vzorkem dat (korpusem češtiny), na základě kterého za běhu vytvoří pravděpodobnostní bezkontextovou gramatiku (strojové učení). Syntaktický analyzátor, jehož jádrem je rozšířený CKY algoritmus, poté pro zadanou českou větu rozhodne, zda-li patří do jazyka generovaného vytvořenou gramatikou, a v kladném případě vrátí nejpravděpodobnější derivační strom této věty. Tento výsledek je následně porovnán s očekávaným řešením, čímž je vyhodnocena úspěšnost syntaktické analýzy.
Extrakce sémantických vztahů z textu
Schmidt, Marek ; Burget, Radek (oponent) ; Smrž, Pavel (vedoucí práce)
Práce se zabývá extrakcí sémantických vztahů z anglických textů. Zaměřuje se především na použití syntaktické analýzy pro extrakci příznaků, které využívá jak pro různé statistické metody, tak i pro metodu založenou na syntaktických vzorech. Je vyhodnocena metoda extrakce vztahu hypernymie srovnáním s anglickým thesaurem WordNet. Na základě zkoumaných metod je pak navržen systém pro extrakci sémantických vztahů z textu spolu s uživatelským rozhraním, které je rovněž implementováno.
Zjednoznačňování slovních významů
Kraus, Michal ; Glembek, Ondřej (oponent) ; Smrž, Pavel (vedoucí práce)
Diplomová práce je zaměřena na rozpoznávání a zjednoznačňování českých slov.  Nejprve se čtenář seznámí s historickým kontextem úkolu, poté jsou mu předvedeny použité algoritmy: naivní Bayesův klasifikátor, klasifikátor AdaBoost, metoda maximální entropie a rozhodovací strom. Použité metody jsou názorně předvedeny na příkladu. V dalších částech práce jsou popsány datové sady a parametry pro klasifikaci. V závěrečné části práce dojde na zhodnocení výsledků a nastínění možných úprav.
Extrakce informací z biomedicínských textů
Knoth, Petr ; Burget, Radek (oponent) ; Smrž, Pavel (vedoucí práce)
V poslední době bylo vynaloženo velké úsilí k tomu, aby byly biomedicínské znalosti, typicky uložené v podobě vědeckých článků, snadněji přístupné a bylo možné je efektivně sdílet. Ve skutečnosti ale nestrukturovaná podstata těchto textů způsobuje velké obtíže při použití technik pro získávání a vyvozování znalostí. Anotování entit nesoucích jistou sémantickou informaci v textu je prvním krokem k vytvoření znalosti analyzovatelné počítačem. V této práci nejdříve studujeme metody pro automatickou extrakci informací z textů přirozeného jazyka. Dále zhodnotíme hlavní výhody a nevýhody současných systémů pro extrakci informací a na základě těchto znalostí se rozhodneme přijmout přístup strojového učení pro automatické získávání exktrakčních vzorů při našich experimentech. Bohužel, techniky strojového učení často vyžadují obrovské množství trénovacích dat, která může být velmi pracné získat. Abychom dokázali čelit tomuto nepříjemnému problému, prozkoumáme koncept tzv. bootstrapping techniky. Nakonec ukážeme, že během našich experimentů metody strojového učení pracovaly dostatečně dobře a dokonce podstatně lépe než základní metody. Navíc v úloze využívající techniky bootstrapping se podařilo významně snížit množství dat potřebných pro trénování extrakčního systému.
Shlukování slov podle významu
Haljuk, Petr ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato bakalářská práce se zabývá sémantickou podobností slov. Popisuje návrh a implementaci systému, který vyhledává nejpodobnější slova a určuje sémantickou podobnost vět. Systém využívá model Word2Vec z knihovny GenSim . Vztahy mezi slovy se model učí analýzou korpusu CommonCrawl .
Automatické hledání vazeb mezi částmi audiovizuálních dokumentů
Sychra, Marek ; Černocký, Jan (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá tématem hledání tématu v textu. Konkrétně hledání spojitostí mezi krátkými texty a hledání hranic jednotlivých částí stejného tématu v jednom hlavním textu. Hlavní motivací výzkumu bylo zavedení do praxe a to v rámci aplikace na přednáškové materiály na FIT (provázání jednotlivých částí různých přednášek). Přístup k porovnávání textů spočívá v analýze textu a slov, která obsahuje a zjišťování významu a důležitosti jednotlivých slov. Segmentace textu toto využívá, když hledá předěly mezi tématy v textu. Obě části problému ( link detection, story segmentation ) měly velmi vysokou úspěšnost na testovacích datech (zprávy ze světových novin). Při subjektivním vyhodnocování u částí přednášek byla úspěšnost nižší, ale stále dobrá.
Shlukování slov podle významu
Jadrníček, Zbyněk ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá problémem sémantické podobnosti slov v angličtině. Čtenář je nejprve informován o teorii shlukování slov podle významu, poté jsou popsány některé metody a nástroje související s tématem. V praktické části navrhneme a implementujeme systém pro výpočet sémantické podobnosti slov využívající nástroj Word2Vec, konkrétně se zaměříme na biomedicínské texty z databáze MEDLINE. Na závěr práce budeme diskutovat dosažené výsledky a předložíme několik návrhů, jak systém vylepšit.
Osm ICT trendů, které změní knihovny
Černý, Michal
Informační společnost i rychle se rozvíjející ICT proměňují vše kolem nás – od vzdělávání, přes dopravu až třeba právě po knihovny. Příspěvek představí osm technologií, které do deseti let začnou měnit knihovny téměř k nepoznání: Internet věcí; big data; veřejné multimediální displeje; firemní sociální sítě; cloud; nové mobilní sítě; zpracování přirozeného jazyka či sémantické technologie. Co bude tato změna znamenat pro knihovny? Jak se změní jejich postavení v informační společnosti?
Videozáznam: Stáhnout plný textMP4
Klasifikace entit pomocí Wikipedie a WordNetu
Kliegr, Tomáš ; Rauch, Jan (vedoucí práce) ; Berka, Petr (oponent) ; Smrž, Pavel (oponent) ; Žabokrtský, Zdeněk (oponent)
Dizertační práce se věnuje problému klasifikace entit reprezentovaných jmennými frázemi v textu. Cílem je vyvinout metodu pro automatizovanou klasifikaci těchto entit v datasetech skládajících se z krátkých textových fragmentů. Důraz je kladen na metody učení bez učitele, nebo kombinaci učení s učitelem a bez učitele (angl. semi-supervised learning), přičemž nebudou vyžadovány trénovací příklady. Třídy jsou buď automaticky stanoveny nebo zadány uživatelem. Náš první pokus pro řešení problému klasifikace entit je algoritmus Sémantického Mapování Konceptů (angl. Semantic Concept Mapping -- SCM). Tento algoritmus mapuje jmenné fráze i cílové třídy na koncepty thesauru WordNet. Grafové míry podobnosti pro WordNet jsou použity pro přiřazení nejbližší třídy k dané jmenné frázi. Pokud jmenná fráze není namapována na žádný koncept, potom je použit algoritmus Cíleného Objevování Hyperonym (angl. Targeted Hypernym Discovery -- THD). Tento algoritmus extrahuje s pomocí lexiko-syntaktických vzorů hyperonymum z článku na Wikipedii, který danou jmennou frázi definuje. Toto hyperonymum je použito k namapování jmenné fráze na koncept ve WordNetu. Hyperonymum může být samo o sobě také považováno za výsledek klasifikace. V takovém případě je dosaženo klasifikace bez učitele. Algoritmy SCM a THD byly navrženy pro angličtinu. I když je možné oba algoritmy přizpůsobit i pro jiné jazyky, byl v rámci dizertační práce vyvinut algoritmus Pytel článků (angl. Bag of Articles -- BOA), který je jazykově agnostický, protože je založen na statistickém Rocchio klasifikátoru. Díky zapojení Wikipedie jako zdroje informací pro klasifikaci nevyžaduje BOA trénovací data. WordNet je využit novým způsobem, a to pro výpočet vah slov, jako pozitivní seznam slov a pro lematizaci. Byl také navržen disambiguační algoritmus pracující s globálním kontextem. Algoritmus BOA považujeme za hlavní přínos dizertace. Experimentální hodnocení navržených algoritmů je provedeno na datasetu WordSim353 používaném pro hodnocení systémů pro výpočet podobnosti slov (angl. Word Similarity Computation -- WSC), a na datasetu Český cestovatel, který byl vytvořen speciálně pro účel našeho výzkumu. Na datasetu WordSim353 dosahuje BOA Spearmanova korelačního koeficientu 0.72 s lidským hodnocením. Tento výsledek je blízko hodnotě 0.75 dosažené algoritmem ESA, který je podle znalosti autora nejlepším algoritmem pro daný dataset nevyžadujícím trénovací data. Algoritmus BOA je ale výrazně méně náročný na předzpracování Wikipedie než ESA. Algoritmus SCM nedosahuje dobrých výsledků na datasetu WordSim353, ale naopak předčí BOA na datasetu Český cestovatel, který byl navržen speciálně pro úlohu klasifikace entit. Tato nesrovnalost vyžaduje další výzkum. V samostatném hodnocení THD na malém počtu pojmenovaných entit z datasetu Český cestovatel bylo správné hyperonymum nalezeno v 62 % případů. Další dosažené výsledky samostatného významu zahrnují novou funkci pro vážení slov založenou na WordNetu, kvalitativní a kvantitativní vyhodnocení možností využití Wikipedie jako zdroje textů pro objevování hyperonym s využitím lexiko-syntaktických vzorů a zevrubnou rešerši měr podobnosti nad WordNetem zahrnující též jejich výkonnostní porovnání na datasetech WordSim353 a Český cestovatel.
Extrakce informací z textu
Michalko, Boris ; Labský, Martin (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Nováček, Jan (oponent)
Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií.

Národní úložiště šedé literatury : Nalezeno 142 záznamů.   začátekpředchozí133 - 142  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.