Národní úložiště šedé literatury Nalezeno 19 záznamů.  předchozí11 - 19  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Processing of Turkic Languages
Ciddi, Sibel ; Zeman, Daniel (vedoucí práce) ; Hlaváčová, Jaroslava (oponent)
Název: Zpracování turkických jazyků Autor: Sibel Ciddi Katedra: Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze Vedoucí diplomové práce: RNDr. Daniel Zeman, Ph.D. Abstrakt: Tato práce představuje a na příkladu turečtiny demon- struje několik metod morfologického zpracování vhodných pro tur- kické jazyky, jejichž počítačové zpracování přináší sadu specifických problémů. Přínosem práce je také značné rozšíření lexikální databáze a souvisejících dat potřebných pro morfologickou analýzu a syntézu; tato data jsou nyní volně dostupná veřejnosti. S ohledem na vysoce produktivní a aglutinační tureckou morfologii a s ní spojenou řídkost dat byl omezený rozsah slovníku významnou překážkou počítačového zpracování jazyka, zvláště pokud jde o zpracování statistickými me- todami. Proto jsme důkladně otestovali a vyhodnotili veřejně do- stupný, na konečných převodnících založený morfologický analyzátor TRmorph. Zaměřili jsme se na rozšíření záběru a slovníku tohoto ana- lyzátoru. Za tím účelem jsme navrhli heuristické metody pro získávání pojmenovaných entit a víceslovných výrazů. Další vylepšení spočívá ve slovníkovém rozpoznávání...
Automatické osvojení vzorů s minimální supervizí
Klíč, Radoslav ; Hana, Jiří (vedoucí práce) ; Hlaváčová, Jaroslava (oponent)
Diplomová práce popisuje algoritmus pro automatické osvojení vzorů s minimální supervizí, který vznikl rozšířením systému Paramor (Monson, 2009), fungujícího zcela bez supervize. Systém je modifikován, aby přijímal snadno dostupná data ve formě ohýbaných slov s označenou hranicí morfémů jako dodatečný vstup. Součástí práce je také knihovna pro hierarchické shlukování, která umožňuje kombinaci různých zdrojů informací. Přístup byl testován na češtině, slovinštině, němčině a katalánštině a vykázal zvýšenou F-míru v porovnáni se základním Paramorem.
Systém českých číslovek a jejich automatické rozpoznání v textu
Bureš, Jan ; Hlaváčová, Jaroslava (vedoucí práce) ; Mírovský, Jiří (oponent)
Diplomová práce má dva cíle. Prvním je systematické roztřídění českých číslovek a dalších (i víceslovných) kvantitativních výrazů s ohledem na možné využití pro automatické zpracování češtiny. Základem jsou stávající mluvnice češtiny a vlastní vyhledávání v českých jazykových korpusech. Druhým cílem je pak vytvoření programu na rozpoznávání číslovek v českém textu a jejich určení podle systému navrženého v části 1. Součástí programu je i určení morfologických vlastností číslovek, především jejich základního tvaru, rodu, čísla a pádu. U číslovek vyjadřujících konkrétní číslo, pokud nejsou zapsané číslicemi, pak program umí takový zápis vygenerovat, přičemž je počítáno i s tím, že pravidla pro správné zapsání číslovek nejsou často dodržována, takže nelze spoléhat na kodifikovaný pravopis.
Vyhledávání v českých strukturovaných datech pomocí stemmingu
Tattermusch, Jan ; Hlaváčová, Jaroslava (vedoucí práce) ; Kuboň, Vladislav (oponent)
Tato práce implementuje a popisuje komponentu pro fulltextové vyhledávání s podporou eského doplování diakritiky a stemmingu. Doplňovač diakritiky pracuje na statistickém principu a zohleduje kontext. Práce obsahuje pět stemmerů připravených k okamžitému použití (dva algoritmické a tři hybridní), jejichž vlastnosti jsou diskutovány. Komponenta je vystavěna nad knihovnou Apache Lucene a poskytuje jednoduché rozhraní pro dotazování a přidávání, mazání a změnu indexovaných dokumentů. Ukládané dokumenty se skládají z pojmenovaných polí s de novanými datovými typy. Komponenta umožňuje de novat krom běžných fulltextových dotaz také netriviální dotazy s dopňujícími omezeními a ovlivnit vlastní zpasob výpočtu skóre výsledků dotazu. Výkon komponenty je dostatečný pro středně vytížené aplikace a orientační výkon je dle měření 50 dotazů za vteřinu nad úložištěm obsahujícím 2,7 milionu dokumenta. Přínos doplňování diakritiky a stemmingu pro kvalitu fulltextového vyhledávání byl měřen pomocí MAP a byl vyhodnocen jako významný.
Splitting word compounds
Oberländer, Jonathan ; Pecina, Pavel (vedoucí práce) ; Hlaváčová, Jaroslava (oponent)
Jazyky, jako je němčina, holandština, skandinávské jazyky nebo řečtina, na rozdíl od angličtiny netvoří kompozita jako víceslovné výrazy, ale spojením jednotlivých částí do nového slova bez ortografického oddělení. To představuje problém pro řadu úloh zpracování přirozeného jazyka, jako je například statistický strojový překlad či vyhledávání informací. Většina předešlých prací na téma rozkladu složenin na jejich částí se zaměřovala na němčinu. V této práci jsme vyvinuli nový jednoduchý systém založený na nařízeném strojovém učení pro automatický rozklad složenin pro tři reprezentativní kompozitní jazyky: němčina, švédština a maďarština. Součástí práce je vytvoření multilinguální evaluační datové sady z lékařské domény anotováním složenin získaných z korpusu EMEA a vyhodnocení několika variant našeho systému a srovnání s předchozími přístupy. Powered by TCPDF (www.tcpdf.org)
České předpony
Hrušecký, Michal ; Mírovský, Jiří (oponent) ; Hlaváčová, Jaroslava (vedoucí práce)
V předložené práci je popsáno, jakým způsobem lze automaticky odhalovat v českém jazyce nově vznikající předpony. Je zde zmíněno několik různých metod pro jejich automatické rozpoznávání a jedna z nich je podrobněji rozebrána. Součástí práce je i ukázková implementace. Ta je k dispozici včetně zdrojových kódů a programátorské dokumentace na přiloženém CD. Na CD jsou přiložena i použitá testovací data a kompletní výsledky všech testů zmiňovaných v textu práce.
Český morfologický guesser
Suchánek, Michal ; Mírovský, Jiří (oponent) ; Hlaváčová, Jaroslava (vedoucí práce)
C ílem práace je implementace guesseru pro českýy jazyk, kter ý využívá slovní kov á data. První m krokem při analýze textu je p ři řazení morfologick ých tag ů jednotlivým slov ům v textu. Morfologick é tagy popisují slovní druh a tvar slova, co ž je informace pot řebn á pro další anal ýzu textu. Morfologick é tagy se přiřazují na základě automatick ého vyhledání pří slu šného slovn í ho tvaru ve slovní ku. Morfologický guesser přiřazuje tagy slovům, která ve slovn í ku nebyla nalezena. Zde popsan ý guesser využí v á podobnost nerozpoznan ých slov se slovy již ve slovní ku obsa ženými.
Rozpoznávání číslovek v českém textu
Bureš, Jan ; Štěpánek, Jan (oponent) ; Hlaváčová, Jaroslava (vedoucí práce)
Účelem práce bylo sestrojit nástroj, který by byl schopen rozpoznávat základní číslovky v česky psaném textu, a to jak číslovky zapsané číslicemi, tak složené číslovky zapsané slovy. Důraz je kladen hlavně na rozpoznávání číslovek zapsaných pomocí slov a jejich korektní spojování do složených číslovek. Při rozpoznávání slovy zapsaných číslovek a jejich spojování jsou rozpoznávány a brány v potaz i hovorové, nespisovné či jinak nesprávné, ale přesto používané tvary či spojení. Výstupem je pak pro každou číslovku její hodnota zapsaná pomocí číslic a množina možných morfologických značek. Program sám provádí lexikální i gramatickou analýzu na základě souboru tvarů slov a pravidel, která jsou mu poskytnuta.
Formalizace systému české morfologie s ohledem na automatické zpracování českých textů
Hlaváčová, Jaroslava ; Petkevič, Vladimír (vedoucí práce) ; Oliva, Karel (oponent) ; Osolsobě, Klára (oponent)
Přesný morfologický popis slovních tvar· je prvním předpokladem pro úspné automatické zpracování jazykových dat. Systém kategorií a jejich hodnot, které se k popisu pouoívají, jsou náplní první ásti práce. Základním principem je tzv. Zlaté pravidlo morfologie, které říká, oe kaodý slovní tvar by ml být v systému popsán jednoznan. Existence variant na úrovni slovních tvar· i celých paradigmat vak splnní tohoto pravidla komplikuje. Koncept variant roziřujeme na tzv. mutace, mezi které řadíme i jiné mnooiny slovních tvar· se stejným popisem (např. víceré tvary osobn ích zájmen). Mutace dlíme na globální pro popis na úrovni paradigmat a ektivní pro popis jednotlivých slovních tvar·. Toto rozdlení nám umooňuje postihnout jejich asté kombinace. Upoutíme od dlení variant (mutací) podle stylového příznaku jako neobjektivního kritéria. Při d·sledném vyuoívání hodnot kategorií Flektivní mutace a Globální mutace z·stane Zlaté pravidlo morfologie vody splnno. V kapitole o lemmatizaci zavádíme vícenásobné lemma pro popis variantn ích lemmat. Podrobn se zabýváme popisem tzv. slooenin, tedy slovních tvar· typu za, proň, koupilas, koliks. Pro jejich lemmatizaci rovno vyuoíváme konceptu ví- cenásobného lemmatu. Podle slovních druh· jejich slooek je dlíme na nkolik typ·. Zabýváme se téo problémem jejich vyhledávání v...

Národní úložiště šedé literatury : Nalezeno 19 záznamů.   předchozí11 - 19  přejít na záznam:
Viz též: podobná jména autorů
16 Hlaváčová, Jana
3 Hlaváčová, Jitka
1 Hlaváčová, Josefína
1 Hlaváčová, Julie
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.