|
Implementace softwarové klávesnice pro vstup textu do aplikace pro strojový překlad
Dvořák, Šimon ; Straňák, Pavel (vedoucí práce) ; Popel, Martin (oponent)
Velké množství aplikací pracuje s textovým vstupem od uživatelů. Překladové we- bové aplikace nejsou výjimkou. Textový vstup je na rozdíl od ostatních aplikací velice různorodý. Stát se může cokoli: různé znaky, klávesnicové layouty nebo uživatelé s malou nebo dokonce žádnou znalostí zdrojového jazyka. V této práci se snažíme vyvinout prostředky, které ulehčují textový vstup do webové aplikace překladače. Vyvinuli jsme konfigurovatelnou softwarovou klávesnici podporující několik funkcí. Mezi tyto funkce patří: definice více klávesnicových layoutů, přemapování fyzických kláves na klávesy aktivního layoutu, predikce dalšího slova a korekce fonetického zápisu. Softwarová klávesnice je snadno rozšiřitelná díky tomu, že používá jednoduchou architek- turu. 1
|
|
Metodika přípravy dat z digitálních knihoven pro využití v digitálních humanitních vědách
Lehečka, B. ; Novák, D. ; Kersch, Filip ; Hladík, Radim ; Bíšková, J. ; Sekyrová, K. ; Válek, F. ; Vozár, Z. ; Bodnár, N. ; Sekan, P. ; Bežová, M. ; Žabička, P. ; Lhoták, Martin ; Straňák, Pavel
Tato metodika si klade za cíl nabídnout knihovnám i dalším paměťovým institucím v České republice doporučený postup při zpřístupnění velkých objemů dat pro výzkumné účely. V současné době je z tohoto pohledu zdigitalizováno již nadkritické množství dokumentů z knihovních fondů, přičemž výsledky digitalizace jsou prezentovány v různých systémech digitálních knihoven. Při jejich zpřístupňování je třeba vždy vycházet z aktuálního znění autorského zákona, ale už nyní je možné se připravit na jeho významnou novelizaci, která implementuje směrnici Evropského parlamentu a Rady č. 2019/790 a týká se mj. vytěžování textů a dat pro vědecké účely. Metodikou doporučovaná architektura nadstavbového systému pro digitální knihovny zajistí škálovatelnost, snadnou správu i rozvoj souvisejících služeb. Představené způsoby zpracování dat, jejich obohacování i výstupní formáty vycházejí z požadavků specialistů z celé škály humanitních oborů.
Plný tet: PDF
|
|
Software pro česko-čínský a čínsko-český slovník
Hudeček, Jan ; Homola, Petr (vedoucí práce) ; Straňák, Pavel (oponent)
Česko-čínský a čínsko český slovník je elektronický slovník použitelný jak pro začátečníka, tak pro zkušeného překladatele. Obsahuje podporu pro obousměrné vyhledávání slov i fulltextové prohledávání slovníku pro výskyt daného výrazu. Přístup k datům je hybridní - pokud je k dispozici databáze, použije ji, pokud není, načte datový soubor. Metodu přístupu k datům je možné za běhu programu měnit. Nad datovým souborem se budují indexy - implementované jako hashovací tabulky nebo binární stromy. V rámci zpříjemnění uživatelského prostředí bylo použito asynchronní více-vláknové načítání dat. Implementace na platformě .NET a MS SQL 2000 umožňuje snadné rozšiřování - například ve formě webové aplikace. Zároveň by měl být návrh architektury dostatečně pružný, aby v budoucnu dovolil editaci dat slovníku.
|
|
N-gramový jazykový model pro český spellchecker
Richter, Michal ; Straňák, Pavel (vedoucí práce) ; Bojar, Ondřej (oponent)
Cílem práce je prozkoumat možnosti použití n-gramových jazykových modelů pro kontrolu českého spellingu a napsat rozšíření pro spellchecker, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. Dále také napsat jednoduchou webovou aplikaci, která bude rozšířený spellchecker prezentovat. V této práci byl také prozkoumán vliv využití lemmatizace a morfologické analýzy slov na úspěšnost hledání překlepů. V práci jsou popsány použité metody jazykového modelování. Dále také postup práce programu, který provádí kontrolu spellingu s využitím jazykových modelů. Potom následuje popis způsobu získání dat pro trénování jazykových modelů, zhodnocení vytvořených jazykových modelů. Nakonec jsou uvedeny dosažené výsledky pro jednotlivé varianty kontroly.
|
|
Automatické čištění HTML dokumentů
Marek, Michal ; Pecina, Pavel (vedoucí práce) ; Straňák, Pavel (oponent)
Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek.
|
|
Pokročilý korektor češtiny
Richter, Michal ; Straňák, Pavel (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Cílem práce je implementovat český spell-checker, který bude využívat jazykové modely a lexikální morfologické analýzy za účelem nabízení co nejkvalitnějšího seznamu možností oprav pro jednotlivé překlepy a za účelm odhalení překlepů, které jsou zároveň platnými českými slovy. Systém by měl zároveň poskytovat službu obnovy diakritiky v českém textu. Za cílovou platformu byl zvolen operační systém Mac OS X. Během implementace byl kladen důraz zejména na efektivní paměťovou reprezentaci statistických modelů. V práci je podán přehled o použitých metodách - HMMs, language models, Viterbi algorithm. Dále je popsána vlastní implementace systému a trénování statistických modelů. Na závěr pak číselná evaluace úspěšnosti systému a diskuze dosažených výsledků.
|
|
O čem píší dnešní noviny
Jankovský, Petr ; Holan, Tomáš (vedoucí práce) ; Straňák, Pavel (oponent)
Projekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky.
|
|
Creating a Bilingual Dictionary using Wikipedia
Ivanova, Angelina ; Zeman, Daniel (vedoucí práce) ; Straňák, Pavel (oponent)
Název práce: Tvorba dvojjazycného slovníku s použitím Wikipedie Autor: Angelina Ivanova Katedra/ Ústav: Ústav formální a aplikované lingvistiky (32-ÚFAL) Vedoucí diplomové práce: RNDr. Daniel Zeman Ph.D. Abstrakt: Strojove citelné slovníky hrají duležitou roli v pocítacové lingvistice. Osved- cily se v oblastech jako je strojový preklad a mezijazykové dobývání informací. V této práci zkoumáme kvalitu a obsah dvojjazycných anglicko-ruských slovníku automaticky získaných z Wikipedie. Slovníky získané z Wikipedie (zde jim pro jednoduchost ríkáme Wiki-slovníky, ale tento pojem nelze zamenovat s Wikislovníkem na http://cs.wiktionary.org) se podstatne liší od tradicních slovníku: pokrytí základní terminologie z Muellerova slovníku je 7,42 %. Pokusy s Wiki-slovníky zabudovanými do trénovacích dat pro strojový preklad vedly k malému, nicméne statisticky významnému poklesu kvality prekladu ve srovnání s experimenty bez Wiki-slovníku. Predpokládáme, že hlavním duvodem je rozdílnost domén mezi slovníkem a korpusem. Na testovacích datech získaných z clánku Wikipedie naopak slovník kvalitu prekladu zlepšuje. V této práci ukazujeme, jak velký je rozdíl mezi slovníky získanými ze struk- tury Wikipedie a tradicními slovníky. Wiki-slovníky...
|
|
Orthography Standardization in Arabic Dialects
Cayralat, Christian ; Zeman, Daniel (vedoucí práce) ; Straňák, Pavel (oponent)
Orthography Standardization in Arabic Dialects Abstract Christian Cayralat1 1 Charles University Spontaneous orthography in Arabic dialects poses one of the biggest ob- stacles in the way of Dialectal Arabic NLP applications. As the Arab world enjoys a wide array of these widely spoken and recently written, non-standard, low-resource varieties, this thesis presents a detailed account of this relatively overlooked phenomenon. It sets out to show that continuously creating addi- tional noise-free, manually standardized corpora of Dialectal Arabic does not free us from the shackles of non-standard (spontaneous) orthography. Because real-world data will most often come in a noisy format, it also investigates ways to ease the amount of noise in textual data. As a proof of concept, we restrict ourselves to one of the dialectal varieties, namely, Lebanese Arabic. It also strives to gain a better understanding of the nature of the noise and its distri- bution. All of this is done by leveraging various spelling correction and morpho- logical tagging neural architectures in a multi-task setting, and by annotating a Lebanese Arabic corpus for spontaneous orthography standardization, and morphological segmentation and tagging, among other features. Additionally, a detailed taxonomy of spelling inconsistencies for...
|
|
Adaptive Handwritten Text Recognition
Procházka, Štěpán ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Potřeba uchovávat a vyměňovat psané záznamy je klíčová pro lidskou společnost a k naplnění této potřeby v posledních tisíciletích ve velké míře slouží ručně psané písmo. Na rozdíl od úlohy rozpoznávání tištěného textu (OCR), která je v posledních desetiletích pozorně studována, úloha rozpoznávání ručně psaného textu (HTR) je, pro svou složi- tost, spíše opomíjena. Tato práce zkoumá možnosti uplatnění hlubokých konvolučních a rekurentních neuronových sítí v rozpoznání ručně psaného textu. Aby se předešlo obtížím způsobeným nedostatkem anotovaných dat, je navržen generátor syntetických dat vhod- ných pro předtrénováni použitých modelů, dále dotrénovaných metodou self-training v rámci široké sady experimentů. Navržené postupy jsou srovnány s dostupnými před- chozími výsledky, jak nad zavedenými datasety tak nad datasety nově vzniklými pro potřeby této práce. Toto srovnání potvrzuje vhodnost a úspěšnost navržených postupů. 1
|