Original title:
Rozdělení délky vět
Translated title:
Sentence length distribution
Authors:
Kašpar, Martin ; Hlávka, Zdeněk (advisor) ; Hlubinka, Daniel (referee) Document type: Bachelor's theses
Year:
2011
Language:
cze Abstract:
[cze][eng] V předložené práci studujeme, jestli lze popsat délky vět prozaického textu pomocí některého z pravděpodobnostních rozdělení. Konkrétně se zaměříme na negativně binomické, logaritmicko normální a Sichelovo rozdělení a jejich srovnání. Zvláštní pozornost věnujeme Sichelovu rozdělení, které bylo vytvořeno za účelem popisu bibliometrických dat. Dále v práci podrobně zkoumáme odhady parametrů všech tří rozdělení a následně teoretické výsledky použijeme na konkrétní data (několik textů v češtině a v angličtině). Nakonec testujeme přesnost jednotlivých rozdělení a odhadů parametrů na základě výsledků popsaných v této práci. 1In the present work we study whether it is possible to describe the lengths of sentences of a prosaic text by a probability distribution. We focus on negative binomial, lognormal and Sichel distributions and their comparison. We study Sichel distribution in detail, because it was introduced as distribution for description of bibliometric data. We also investigate estimation of parameters of all three distributions and then use the theoretical results on specific data (a few texts in Czech and English). Finally, we test the accuracy of the distributions and estimated parameters, using the results given in this work. 1
Keywords:
GIGP distribution; Sentence length; Sichel distribution; Délky vět; GIGP rozdělení; Sichelovo rozdělení
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/37760