Národní úložiště šedé literatury Nalezeno 1 záznamů.  Hledání trvalo 0.00 vteřin. 
Automatická identifikace kódování a jazyka textu
Hron, Michal ; Pinkas, Otakar (vedoucí práce) ; Pavlíčková, Jarmila (oponent)
Zpracování prostých nebo složitých textů (MIME typ - application) často vyžaduje automatické rozpoznání použitého kódování a jazyka. Některé typy souborů nebo stránek obsahují vnitřní informaci o způsobu kódování. Ovšem může dojít ke konfliktům, např. mezi hlavičkami protokolu HTTP a značkou meta. Někdy je vhodné ověřovat správnost kódování souborů, i když je kódování známé. Není-li identifikace způsobu kódování dostupná, je třeba použít metodu automatického rozpoznávání kódování a jazyka. Jednou z nich je metoda n-gramů. Byla již mnohokrát použita na kategorizaci textů v mnoha programech a v různých programovacích jazycích. Na základě testů se zdá, že automatické rozpoznání češtiny a dalších slovanských jazyků bývá méně úspěšné než rozpoznání jazyků západních. Zjištění příčin a hledání lepších řešení je proto i dnes přínosné. Důležitými parametry úlohy jsou délka vstupního textu a použití více jazyků v jednom dokumentu. Předpokládáme, že text neobsahuje věty v několika různých jazycích. Bakalářská práce má obsahovat kromě základní analýzy i softwarové řešení dílčích problémů, ať už ve formě samostatných programů nebo zásuvných modulů.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.