Národní úložiště šedé literatury Nalezeno 23 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Implementace softwarové klávesnice pro vstup textu do aplikace pro strojový překlad
Dvořák, Šimon ; Straňák, Pavel (vedoucí práce) ; Popel, Martin (oponent)
Velké množství aplikací pracuje s textovým vstupem od uživatelů. Překladové we- bové aplikace nejsou výjimkou. Textový vstup je na rozdíl od ostatních aplikací velice různorodý. Stát se může cokoli: různé znaky, klávesnicové layouty nebo uživatelé s malou nebo dokonce žádnou znalostí zdrojového jazyka. V této práci se snažíme vyvinout prostředky, které ulehčují textový vstup do webové aplikace překladače. Vyvinuli jsme konfigurovatelnou softwarovou klávesnici podporující několik funkcí. Mezi tyto funkce patří: definice více klávesnicových layoutů, přemapování fyzických kláves na klávesy aktivního layoutu, predikce dalšího slova a korekce fonetického zápisu. Softwarová klávesnice je snadno rozšiřitelná díky tomu, že používá jednoduchou architek- turu. 1
Metodika přípravy dat z digitálních knihoven pro využití v digitálních humanitních vědách
Lehečka, B. ; Novák, D. ; Kersch, Filip ; Hladík, Radim ; Bíšková, J. ; Sekyrová, K. ; Válek, F. ; Vozár, Z. ; Bodnár, N. ; Sekan, P. ; Bežová, M. ; Žabička, P. ; Lhoták, Martin ; Straňák, Pavel
Tato metodika si klade za cíl nabídnout knihovnám i dalším paměťovým institucím v České republice doporučený postup při zpřístupnění velkých objemů dat pro výzkumné účely. V současné době je z tohoto pohledu zdigitalizováno již nadkritické množství dokumentů z knihovních fondů, přičemž výsledky digitalizace jsou prezentovány v různých systémech digitálních knihoven. Při jejich zpřístupňování je třeba vždy vycházet z aktuálního znění autorského zákona, ale už nyní je možné se připravit na jeho významnou novelizaci, která implementuje směrnici Evropského parlamentu a Rady č. 2019/790 a týká se mj. vytěžování textů a dat pro vědecké účely. Metodikou doporučovaná architektura nadstavbového systému pro digitální knihovny zajistí škálovatelnost, snadnou správu i rozvoj souvisejících služeb. Představené způsoby zpracování dat, jejich obohacování i výstupní formáty vycházejí z požadavků specialistů z celé škály humanitních oborů.
Plný tet: Stáhnout plný textPDF
Software pro česko-čínský a čínsko-český slovník
Hudeček, Jan ; Homola, Petr (vedoucí práce) ; Straňák, Pavel (oponent)
Česko-čínský a čínsko český slovník je elektronický slovník použitelný jak pro začátečníka, tak pro zkušeného překladatele. Obsahuje podporu pro obousměrné vyhledávání slov i fulltextové prohledávání slovníku pro výskyt daného výrazu. Přístup k datům je hybridní - pokud je k dispozici databáze, použije ji, pokud není, načte datový soubor. Metodu přístupu k datům je možné za běhu programu měnit. Nad datovým souborem se budují indexy - implementované jako hashovací tabulky nebo binární stromy. V rámci zpříjemnění uživatelského prostředí bylo použito asynchronní více-vláknové načítání dat. Implementace na platformě .NET a MS SQL 2000 umožňuje snadné rozšiřování - například ve formě webové aplikace. Zároveň by měl být návrh architektury dostatečně pružný, aby v budoucnu dovolil editaci dat slovníku.
N-gramový jazykový model pro český spellchecker
Richter, Michal ; Straňák, Pavel (vedoucí práce) ; Bojar, Ondřej (oponent)
Cílem práce je prozkoumat možnosti použití n-gramových jazykových modelů pro kontrolu českého spellingu a napsat rozšíření pro spellchecker, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. Dále také napsat jednoduchou webovou aplikaci, která bude rozšířený spellchecker prezentovat. V této práci byl také prozkoumán vliv využití lemmatizace a morfologické analýzy slov na úspěšnost hledání překlepů. V práci jsou popsány použité metody jazykového modelování. Dále také postup práce programu, který provádí kontrolu spellingu s využitím jazykových modelů. Potom následuje popis způsobu získání dat pro trénování jazykových modelů, zhodnocení vytvořených jazykových modelů. Nakonec jsou uvedeny dosažené výsledky pro jednotlivé varianty kontroly.
Automatické čištění HTML dokumentů
Marek, Michal ; Pecina, Pavel (vedoucí práce) ; Straňák, Pavel (oponent)
Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek.
Pokročilý korektor češtiny
Richter, Michal ; Straňák, Pavel (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Cílem práce je implementovat český spell-checker, který bude využívat jazykové modely a lexikální morfologické analýzy za účelem nabízení co nejkvalitnějšího seznamu možností oprav pro jednotlivé překlepy a za účelm odhalení překlepů, které jsou zároveň platnými českými slovy. Systém by měl zároveň poskytovat službu obnovy diakritiky v českém textu. Za cílovou platformu byl zvolen operační systém Mac OS X. Během implementace byl kladen důraz zejména na efektivní paměťovou reprezentaci statistických modelů. V práci je podán přehled o použitých metodách - HMMs, language models, Viterbi algorithm. Dále je popsána vlastní implementace systému a trénování statistických modelů. Na závěr pak číselná evaluace úspěšnosti systému a diskuze dosažených výsledků.
O čem píší dnešní noviny
Jankovský, Petr ; Holan, Tomáš (vedoucí práce) ; Straňák, Pavel (oponent)
Projekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky.
Creating a Bilingual Dictionary using Wikipedia
Ivanova, Angelina ; Zeman, Daniel (vedoucí práce) ; Straňák, Pavel (oponent)
Název práce: Tvorba dvojjazycného slovníku s použitím Wikipedie Autor: Angelina Ivanova Katedra/ Ústav: Ústav formální a aplikované lingvistiky (32-ÚFAL) Vedoucí diplomové práce: RNDr. Daniel Zeman Ph.D. Abstrakt: Strojove citelné slovníky hrají duležitou roli v pocítacové lingvistice. Osved- cily se v oblastech jako je strojový preklad a mezijazykové dobývání informací. V této práci zkoumáme kvalitu a obsah dvojjazycných anglicko-ruských slovníku automaticky získaných z Wikipedie. Slovníky získané z Wikipedie (zde jim pro jednoduchost ríkáme Wiki-slovníky, ale tento pojem nelze zamenovat s Wikislovníkem na http://cs.wiktionary.org) se podstatne liší od tradicních slovníku: pokrytí základní terminologie z Muellerova slovníku je 7,42 %. Pokusy s Wiki-slovníky zabudovanými do trénovacích dat pro strojový preklad vedly k malému, nicméne statisticky významnému poklesu kvality prekladu ve srovnání s experimenty bez Wiki-slovníku. Predpokládáme, že hlavním duvodem je rozdílnost domén mezi slovníkem a korpusem. Na testovacích datech získaných z clánku Wikipedie naopak slovník kvalitu prekladu zlepšuje. V této práci ukazujeme, jak velký je rozdíl mezi slovníky získanými ze struk- tury Wikipedie a tradicními slovníky. Wiki-slovníky...
Orthography Standardization in Arabic Dialects
Cayralat, Christian ; Zeman, Daniel (vedoucí práce) ; Straňák, Pavel (oponent)
Orthography Standardization in Arabic Dialects Abstract Christian Cayralat1 1 Charles University Spontaneous orthography in Arabic dialects poses one of the biggest ob- stacles in the way of Dialectal Arabic NLP applications. As the Arab world enjoys a wide array of these widely spoken and recently written, non-standard, low-resource varieties, this thesis presents a detailed account of this relatively overlooked phenomenon. It sets out to show that continuously creating addi- tional noise-free, manually standardized corpora of Dialectal Arabic does not free us from the shackles of non-standard (spontaneous) orthography. Because real-world data will most often come in a noisy format, it also investigates ways to ease the amount of noise in textual data. As a proof of concept, we restrict ourselves to one of the dialectal varieties, namely, Lebanese Arabic. It also strives to gain a better understanding of the nature of the noise and its distri- bution. All of this is done by leveraging various spelling correction and morpho- logical tagging neural architectures in a multi-task setting, and by annotating a Lebanese Arabic corpus for spontaneous orthography standardization, and morphological segmentation and tagging, among other features. Additionally, a detailed taxonomy of spelling inconsistencies for...
Adaptive Handwritten Text Recognition
Procházka, Štěpán ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Potřeba uchovávat a vyměňovat psané záznamy je klíčová pro lidskou společnost a k naplnění této potřeby v posledních tisíciletích ve velké míře slouží ručně psané písmo. Na rozdíl od úlohy rozpoznávání tištěného textu (OCR), která je v posledních desetiletích pozorně studována, úloha rozpoznávání ručně psaného textu (HTR) je, pro svou složi- tost, spíše opomíjena. Tato práce zkoumá možnosti uplatnění hlubokých konvolučních a rekurentních neuronových sítí v rozpoznání ručně psaného textu. Aby se předešlo obtížím způsobeným nedostatkem anotovaných dat, je navržen generátor syntetických dat vhod- ných pro předtrénováni použitých modelů, dále dotrénovaných metodou self-training v rámci široké sady experimentů. Navržené postupy jsou srovnány s dostupnými před- chozími výsledky, jak nad zavedenými datasety tak nad datasety nově vzniklými pro potřeby této práce. Toto srovnání potvrzuje vhodnost a úspěšnost navržených postupů. 1

Národní úložiště šedé literatury : Nalezeno 23 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
3 Straňák, Peter
4 Straňák, Petr
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.