Original title:
Analýza starých manuskriptů
Translated title:
Medieval manusripts' analysis
Authors:
Piptová, Marcela ; Šikudová, Elena (advisor) ; Bída, Michal (referee) Document type: Bachelor's theses
Year:
2021
Language:
cze Abstract:
[cze][eng] Tato práce se věnuje analýze historických manuskriptů s využitím statistických metod. Konkrétně se jedná o binarizaci dokumentu, tj. oddělení popředí od pozadí, dále detekci řádek textu a nakonec rozdělování těchto řádek na jednotlivá slova. Oproti tištěným dokumentům je tento proces ovšem značně komplikován obecně horší kvalitou rukopisů, nepravidelnou strukturou dokumentu, ozdobnými prvky přímo v textu apod. V práci uvádíme možné přístupy k řešení těchto problémů a detailně popisujeme algoritmus, který byl navržen a zvolen k implementaci. Důraz je kladen zejména na to, aby byly co nejlépe nalezeny a odstraněny netextové oblasti (iluminace apod.) v dokumentu. Součástí práce jsou i experimenty a vyhodnocení úspěšnosti zvolené metody. 1This thesis deals with an analysis of medieval manuscripts using statistical methods. Firstly, the document is binarized, i.e. the foreground regions are classified. Then the detection of text lines is performed. Finally, detected text lines are split into separate words. This process is more complicated for historical manuscripts compared to printed documents due to their age, irregular page layout and non-textual parts (images) within the text. In this text, various approaches to these problems are discussed. Particular attention is paid to the algorithm that was designed and implemented to perform the detection and deletion of non-textual parts of the document. Experimental results are included and evaluated. 1
Keywords:
binarization|segmentation|line detection; binarizace|segmentace|detekce řádků
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/127964