|
N-gramový jazykový model pro český spellchecker
Richter, Michal ; Bojar, Ondřej (oponent) ; Straňák, Pavel (vedoucí práce)
Cílem práce je prozkoumat možnosti použití n-gramových jazykových modelů pro kontrolu českého spellingu a napsat rozšíření pro spellchecker, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. Dále také napsat jednoduchou webovou aplikaci, která bude rozšířený spellchecker prezentovat. V této práci byl také prozkoumán vliv využití lemmatizace a morfologické analýzy slov na úspěšnost hledání překlepů. V práci jsou popsány použité metody jazykového modelování. Dále také postup práce programu, který provádí kontrolu spellingu s využitím jazykových modelů. Potom následuje popis způsobu získání dat pro trénování jazykových modelů, zhodnocení vytvořených jazykových modelů. Nakonec jsou uvedeny dosažené výsledky pro jednotlivé varianty kontroly.
|
|
Automatické čištění HTML dokumentů
Marek, Michal ; Straňák, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek.
|
|
Software pro česko-čínský a čínsko-český slovník
Hudeček, Jan ; Straňák, Pavel (oponent) ; Homola, Petr (vedoucí práce)
Česko-čínský a čínsko český slovník je elektronický slovník použitelný jak pro začátečníka, tak pro zkušeného překladatele. Obsahuje podporu pro obousměrné vyhledávání slov i fulltextové prohledávání slovníku pro výskyt daného výrazu. Přístup k datům je hybridní - pokud je k dispozici databáze, použije ji, pokud není, načte datový soubor. Metodu přístupu k datům je možné za běhu programu měnit. Nad datovým souborem se budují indexy - implementované jako hashovací tabulky nebo binární stromy. V rámci zpříjemnění uživatelského prostředí bylo použito asynchronní více-vláknové načítání dat. Implementace na platformě .NET a MS SQL 2000 umožňuje snadné rozšiřování - například ve formě webové aplikace. Zároveň by měl být návrh architektury dostatečně pružný, aby v budoucnu dovolil editaci dat slovníku.
|