Národní úložiště šedé literatury Nalezeno 17 záznamů.  předchozí11 - 17  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Automatická detekce jazyka textového dokumentu
Cakl, Jan ; Pešán, Jan (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá rozpoznáním jazyka textového dokumentu. Výsledný program obsahuje implementaci dvou odlišných metod určených pro rozpoznání jazyka textu. První metoda je založena na frekvenčních statistikách N-gramu. Druhou metodou jsou Markovské řetězce a poslední metoda za účelem rozpoznání jazyka využívá umělou neuronovou síť. Řešení je implementováno v jazyce Python.
ChatBot založený na jazykovém modelování
Plaga, Michal ; Szőke, Igor (oponent) ; Skála, František (vedoucí práce)
Práce se zabývá chatbotem založeným na jazykovém modelování. Hlavním cílem práce je implementace chatbota komunikujícího na sociálních sítích. Porovnání chatbota s již existujícími chatboty. A využití jazykového modelování v aplikaci chatbota.
Mining of Textual Data from the Web for Speech Recognition
Kubalík, Jakub ; Plchot, Oldřich (oponent) ; Mikolov, Tomáš (vedoucí práce)
The preliminary goals of this project were to get familiar with language modeling for speech recognition and techniques for acquisition of text data from the Web. Speech recognition techniques are introduced and statistical language modeling is described in detail. The text also covers mining models and techniques, information retrieval especially. Specific problems of Web mining are discussed and Google search is introduced. Special attention was paid to detailed description of implementation of the text mining system. However, the main goal of this work was to determine, whether the data acquired from the Web can provide some improvement into the recognition systems. The text is describing experiments, which use the retrieved Web data to update sample language models.
Modelování dynamiky prosodie pro rozpoznávání řečníka
Jančík, Zdeněk ; Fapšo, Michal (oponent) ; Matějka, Pavel (vedoucí práce)
V současných systémech pro rozpoznání mluvčího se zpravidla využívají krátkodobé akustické příznaky. Jiné příznaky se používají jen zřídka. V práci se zaměřím na prosodické příznaky získané z průběhu základního tónu a energie. Tyto příznaky modelují průběh základního tónu v jednotlivých fonémech nebo slabikách. Z literatury je známo, že systémy založené na prosodii neposkytují tak dobré výsledky jako akustické, ale spojením akustického systému a systému založeného na prosodii se dosáhne značného zlepšení výsledků. To ověřím spojením s akustickým systémem vyvinutým na VUT. Při experimentech použiji data z evaluací pořádaných Národním úřadem pro standardy a technologie (NIST).
Vyhledávání duplicitních textů
Pekař, Tomáš ; Kouřil, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této práce je navrhnout a implementovat systém pro vyhledávání duplicitních textů. Výsledná aplikace by měla umět dokumenty indexovat a také je v indexu vyhledávat. V naší práci se zabýváme předzpracováním dokumentů, jejich fragmentací a indexací. Dále rozebíráme metody vyhledávání duplicit, s čímž je spojena také strategie selekce podřetězců. Práce obsahuje i popis základních datových struktur, které lze použít pro indexaci n-gramů.
Automatická identifikace kódování a jazyka textu
Hron, Michal ; Pinkas, Otakar (vedoucí práce) ; Pavlíčková, Jarmila (oponent)
Zpracování prostých nebo složitých textů (MIME typ - application) často vyžaduje automatické rozpoznání použitého kódování a jazyka. Některé typy souborů nebo stránek obsahují vnitřní informaci o způsobu kódování. Ovšem může dojít ke konfliktům, např. mezi hlavičkami protokolu HTTP a značkou meta. Někdy je vhodné ověřovat správnost kódování souborů, i když je kódování známé. Není-li identifikace způsobu kódování dostupná, je třeba použít metodu automatického rozpoznávání kódování a jazyka. Jednou z nich je metoda n-gramů. Byla již mnohokrát použita na kategorizaci textů v mnoha programech a v různých programovacích jazycích. Na základě testů se zdá, že automatické rozpoznání češtiny a dalších slovanských jazyků bývá méně úspěšné než rozpoznání jazyků západních. Zjištění příčin a hledání lepších řešení je proto i dnes přínosné. Důležitými parametry úlohy jsou délka vstupního textu a použití více jazyků v jednom dokumentu. Předpokládáme, že text neobsahuje věty v několika různých jazycích. Bakalářská práce má obsahovat kromě základní analýzy i softwarové řešení dílčích problémů, ať už ve formě samostatných programů nebo zásuvných modulů.
Automatizovaná analýza sentimentu
Zeman, Matěj ; Kincl, Tomáš (vedoucí práce) ; Přibil, Jiří (oponent)
Cílem této diplomové práce je popsat automatizovanou analýzu sentimentu, její metody a problematiku Cross-Domain a následně otestovat již existující model. Poté tento model aplikovat na data z webů Česko-slovenské filmové databáze CSFD.cz, českého e-shopu MALL.cz a jednoho z největších českých webů o knihách Databazeknih.cz se snahou přispět k řešení Cross-Domain problému za pomoci n-gramů a analytického softwaru RapidMiner.

Národní úložiště šedé literatury : Nalezeno 17 záznamů.   předchozí11 - 17  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.