Original title:
Indexace elektronických dokumentů a jejich částí
Translated title:
Indexing of text documents and their parts
Authors:
Tomeš, Jiří ; Kopecký, Michal (advisor) ; Grošup, Tomáš (referee) Document type: Master’s theses
Year:
2015
Language:
cze Abstract:
[cze][eng] Práce popisuje návrh a implementaci programu pro zpracování elektronických publikací (odborných sborníků, rozsáhlých návodů a manuálů, případně i klasických elektronických knih) s cílem obohatit je vnitřní možnosti navigace mezi souvisejícími částmi, případně naopak získat z nich co nejreprezentativnější sumarizaci dané délky. Na rozdíl od obdobných programů může být sumarizace založená nejen na větách, ale na elementech jiných kategorií (odstavců, sekcí) a podobně. Důraz je kladen především na jednoduchost obsluhy, nezávislost na platformě a podporu vícejazyčného prostředí. Aplikace poskytuje flexibilní prostředí, které je možné přizpůsobit si svým potřebám.The thesis describes the design and implementation of an application for processing electronic publications (collections of conference papers, comprehensive manuals, or even classical electronic books) in order to enrich their internal navigation by hyperlinks between their related parts, respectively producing as representative as possible summarizations of given length. Unlike similar applications summarizations can be based not only on the sentences, but on elements of other categories like paragraphs, sections and the like.The main emphasis was put on ease of use, platform independence, and multilingual support. The application provides a flexible environment that can be customized to user's needs.
Keywords:
electronic documents; enhanced navigation structure; HTML; indexing; text summarization; Elektronické dokumenty; HTML; indexace; sumarizace textů; tvorba navigační struktury
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/82672