Original title:
Automatizované hodnocení kvality dokumentů
Authors:
Čačková, Petra Document type: Doctoral theses
Year:
2009
Language:
cze Abstract:
[cze][eng] Disertační práce se zabývá možnostmi automatizovaného hodnocení kvality dokumentů, přičemž kvalitou je míněna formální kvalita, zejména typografické hledisko zpracování dokumentu. Dokumenty jsou určitou vizitkou a reprezentují, přesto mnohdy neprocházejí žádnou kontrolou. Automatizovaná kontrola je tedy na místě. V mnoha oblastech je věnována pozornost kvalitě. Kvalita dokumentů, zejména formální, však stojí mimo oblast hlavního zájmu. Literatura se v této souvislosti zabývá převážně estetickou stránkou dokumentů a okrajově typografií. Výzkumy však prokázaly, že kvalitní dokument pozitivně ovlivňuje čtenáře a že má smysl se touto oblastí zabývat. Současným trendem je analýza dokumentu pro různé účely, řeší se vyhledávání objektů na stránce i jejich klasifikace. V souvislosti s tím byla vyvinuta řada zcela rozdílných metod pracujících na různých úrovních dokumentu. Mezi nimi mají zvláštní postavení metody z oblasti umělé inteligence, jež lze využít především pro klasifikaci. Vybrané metody by měly poskytovat dostatek relevantních dat pro hodnocení. Existujících metod lze využít pro další práci. Proto byl navržen způsob, jak dostupné metody posoudit z hlediska jejich vhodnosti pro automatizované hodnocení kvality dokumentů. Podstatnou částí práce je návrh matematického modelu, který popisuje zkoumaný dokument soustavou parametrů. Parametry jsou vybrány tak, aby vyjadřovaly relevantní charakteristiky dokumentu na různých úrovních, od jednotlivých prvků přes stránku až po dokument jako celek. Soustava parametrů a jejich hodnot tvoří formální obraz dokumentu, který je jedním ze vstupů pro hodnocení kvality. Druhým vstupem jsou pravidla pro hodnocení kvality dokumentů, přičemž se vychází především z osvědčených typografických pravidel. Zásadním přínosem pro automatizované hodnocení je převod pravidel do formalizované podoby. Pro hodnocení jsou vybrána ta pravidla, jejichž dodržení má pozitivní vliv na kvalitu dokumentů. Pravidla jsou formalizována a zapsána matematickým aparátem. Formalizovaná pravidla a model dokumentu jsou vstupem pro samotné hodnocení kvality. Zde je navrženo formalizované hodnocení zjištěných parametrů podle vybraných pravidel tak, aby výstupem byly informace o kvalitě dokumentu. Pro tyto účely je velmi vhodný expertní systém, který kromě vlastního hodnocení může poskytnout i vysvětlení a rady. Celý postup je demonstrován na vzorovém dokumentu a je popsán způsob hodnocení tohoto dokumentu. Práce se věnuje oblasti, která je dosud poměrně ojedinělá, a spojuje různé obory, od typografie přes analýzu dokumentů až k umělé inteligenci. Práce je zaměřena na analýzu a návrh způsobu automatizovaného hodnocení kvality dokumentů s výhledem dalšího rozvoje do budoucna.Dissertation thesis deals with the possibilities of automated documents quality evaluation. The quality is specified as the formal quality, particularly the typographic aspects of documents processing are emphasized. Documents represent the organization but they are not often checked for their formal quality level. Automated checking and evaluation would be helpful. In many areas, the attention is paid to the quality. The documents formal quality is not the main area of interest. In the literature, mainly the aesthetic or typographic aspects are concerned. However, the research showed that high-quality documents have a positive effect on readers so that the documents quality is important. The documents analysis made for different purposes is the present trend and the methods are focused on objects recognition in the page as well as on the objects classification. In this context, a number of various methods working at different documents levels were developed. Especially the artificial intelligence methods, which are primarily used for classification, can be helpful. Existing methods can be used for further work. In this thesis, a procedure for methods assessment was designed, which concentrates on methods' suitability for automated evaluation of documents quality. The selected methods should provide enough relevant data for evaluation. The important part of the thesis is the mathematical model design that describes the document by a set of parameters. Selected parameters should reflect the relevant characteristics of the document at different levels, from page elements to the whole document. The set of parameters and their values build a formal image of the document, which is one of the inputs for the quality evaluation. The other input for the quality evaluation process is the set of rules for documents which consists mainly from the typographic rules. The rules which have a positive effect on the documents quality were selected. The essential contribution to the automated evaluation is the formalization of these rules by the mathematical apparatus. The formalized rules and the document model are the inputs to the quality evaluation process. A formalized evaluation of the parameters according to the selected rules is designed to discover the information about the document quality. For this purpose, an expert system is very suitable. Apart from evaluation, it can also provide explanation and advice. The entire procedure is demonstrated on the sample document and the evaluation is described. This thesis deals with the area which is still relatively unusual and integrates various disciplines, from typography through documents analysis to the artificial intelligence. The thesis is focused on analysis and design of the automated method for documents quality evaluation with a possible further development in the future.
Keywords:
automatizace; dokumenty; model dokumentu; typografie