Název:
Automatizované metody popisu struktury odborného textu a vztah některých prvků ke kvalitě textu
Překlad názvu:
Automated methods of textual content analysis and description of text structures
Autoři:
Chýla, Roman ; Smetáček, Vladimír (vedoucí práce) ; Rauch, Jan (oponent) ; Uličný, Oldřich (oponent) Typ dokumentu: Disertační práce
Rok:
2012
Jazyk:
eng
Abstrakt: [eng][cze] Universal Semantic Language (USL) is a semi-formalized approach for the description of knowledge (a knowledge representation tool). The idea of USL was introduced by Vladimir Smetacek in the system called SEMAN which was used for keyword extraction tasks in the former Information centre of the Czechoslovak Republic. However due to the dissolution of the centre in early 90's, the system has been lost. This thesis reintroduces the idea of USL in a new context of quantitative content analysis. First we introduce the historical background and the problems of semantics and knowledge representation, semes, semantic fields, semantic primes and universals. The basic methodology of content analysis studies is illustrated on the example of three content analysis tools and we describe the architecture of a new system. The application was built specifically for USL discovery but it can work also in the context of classical content analysis. It contains Natural Language Processing (NLP) components and employs the algorithm for collocation discovery adapted for the case of cooccurences search between semantic annotations. The software is evaluated by comparing its pattern matching mechanism against another existing and established extractor. The semantic translation mechanism is evaluated in the task of...Univerzální sémantický jazyk (USJ) je semi-formalizovaný způsob zápisu znalostí (systém pro reprezentaci znalostí). Myšlenka USJ byla rozvinuta Vladimírem Smetáčkem v 80. letech při pracech na systému SÉMAN (Universální semantický analyzátor). Tento systém byl využíván pro automatizovanou extrakci klíčových slov v tehdejším informačním centru ČSSR. Avšak se zánikem centra v 90. letech byl systém SEMAN ztracen. Tato dizertace oživuje myšlenku USJ v novém kontextu automatizované obsahové analýzy. Nejdříve prezentujeme historický kontext a problémy spojené s reprezentací znalostí, sémů, sémantických polí, sémantických primitivů a univerzálií. Dále je představena metodika kvantitativní obsahové analýzy na příkladu tří klasických aplikací. Podrobně popíšeme architekturu nové aplikace, která byla vyvinuta speciálně pro potřeby evaluace USJ. Program může fungovat jako nástroj pro klasickou obsahovou analýzu, avšak obsahuje i nástroje pro zpracování přirozeného jazyka (NLP) a využívá algoritmů pro vyhledávání kolokací. Tyto byly upraveny pro potřeby vyhledávání vazeb mezi sémantickými anotacemi. Jednotlivé součásti programu jsou podrobeny praktickým testům. Subsystém pro vyhledávní vzorů v textech je porovnán s existujícím extraktorem klíčových slov. Mechanismus pro překlad do sémantických kódů je...
Klíčová slova:
obsahová analýza; SEMAN; sémantická pole; sémantický analyzátor; sémy; content analysis; SEMAN; semantic analyzer; semantic fields; semes