Original title:
Robustní parsing zašuměného obsah
Translated title:
Robust Parsing of Noisy Content
Authors:
Daiber, Joachim ; Zeman, Daniel (advisor) ; Mareček, David (referee) Document type: Master’s theses
Year:
2013
Language:
eng Abstract:
[eng][cze] While parsing performance on in-domain text has developed steadily in recent years, out-of-domain text and grammatically noisy text remain an obstacle and often lead to significant decreases in parsing accuracy. In this thesis, we focus on the parsing of noisy content, such as user-generated content in services like Twitter. We investigate the question whether a preprocessing step based on machine translation techniques and unsupervised models for text-normalization can improve parsing performance on noisy data. Existing data sets are evaluated and a new data set for dependency parsing of grammatically noisy Twitter data is introduced. We show that text-normalization together with a combination of domain-specific and generic part-of-speech taggers can lead to a significant improvement in parsing accuracy. Powered by TCPDF (www.tcpdf.org)Ačkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)
Keywords:
dependency syntax; domain adaptation; parsing; doménová adaptace; parsing; syntaktická analýza; závislostní syntax
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/52111