Národní úložiště šedé literatury Nalezeno 4 záznamů.  Hledání trvalo 0.02 vteřin. 
Přibližná extrakce frázové tabulky z velkého paralelního korpusu
Przywara, Česlav ; Bojar, Ondřej (vedoucí práce) ; Tamchyna, Aleš (oponent)
Cílem této práce je ověření praktické použitelnosti algoritmu pro přibližné počítání četností jako základu pro implementaci filtru frázových tabulek v systémech pro statistický strojový překlad. Algoritmus navíc dokáže odstranit fráze s nízkou četností přímo během extrakce tabulky. Provedená implementace umožnila vytvářet značně filtrované tabulky, které však v měřeních kvality překladu pomocí automatické metriky BLEU dosahovaly obdobných skóre jako nefiltrované tabulky. Důležitým výsledkem této práce je plně funkční program pro extrakci frázových tabulek, pojmenovaný eppex, schopný nahradit stávající programy se stejnou funkčností, jež jsou součástí volně šířitelného systému pro statistický strojový překlad Moses. Značná část práce je věnována experimentálnímu vyhodnocení systémových nároků programu a kvality vytvářených frázových tabulek, při kterém jsou jako trénovací data použity paralelní korpusy o celkové velikosti 2 miliard slov. Powered by TCPDF (www.tcpdf.org)
Metody extrakce víceslovných výrazů z textu
Przywara, Česlav ; Pecina, Pavel (vedoucí práce) ; Schlesinger, Pavel (oponent)
Cílem této práce je efektivní implementace metod (automatické) extrakce víceslovných spojení z textu, tak aby výsledný program dokázal zpracovat rozsáhlé textové korpusy o velikosti v řádu až miliard slov. Další důležitou funkcí programu je možnost ukládání kontextu pro všechny extrahované N-gramy. Pro účely práce je výsledný program implementován speciálně pro extrakci kolokací ze závislostní strukturou z Pražského závislostního korpusu (PDT), ale návrh programu umožňuje jeho snadné rozšíření.
Přibližná extrakce frázové tabulky z velkého paralelního korpusu
Przywara, Česlav ; Bojar, Ondřej (vedoucí práce) ; Tamchyna, Aleš (oponent)
Cílem této práce je ověření praktické použitelnosti algoritmu pro přibližné počítání četností jako základu pro implementaci filtru frázových tabulek v systémech pro statistický strojový překlad. Algoritmus navíc dokáže odstranit fráze s nízkou četností přímo během extrakce tabulky. Provedená implementace umožnila vytvářet značně filtrované tabulky, které však v měřeních kvality překladu pomocí automatické metriky BLEU dosahovaly obdobných skóre jako nefiltrované tabulky. Důležitým výsledkem této práce je plně funkční program pro extrakci frázových tabulek, pojmenovaný eppex, schopný nahradit stávající programy se stejnou funkčností, jež jsou součástí volně šířitelného systému pro statistický strojový překlad Moses. Značná část práce je věnována experimentálnímu vyhodnocení systémových nároků programu a kvality vytvářených frázových tabulek, při kterém jsou jako trénovací data použity paralelní korpusy o celkové velikosti 2 miliard slov. Powered by TCPDF (www.tcpdf.org)
Metody extrakce víceslovných výrazů z textu
Przywara, Česlav ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
Cílem této práce je efektivní implementace metod (automatické) extrakce víceslovných spojení z textu, tak aby výsledný program dokázal zpracovat rozsáhlé textové korpusy o velikosti v řádu až miliard slov. Další důležitou funkcí programu je možnost ukládání kontextu pro všechny extrahované N-gramy. Pro účely práce je výsledný program implementován speciálně pro extrakci kolokací ze závislostní strukturou z Pražského závislostního korpusu (PDT), ale návrh programu umožňuje jeho snadné rozšíření.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.