Original title:
Převod vědeckých článků na text
Translated title:
Conversion of Science Articles to Plain Text
Authors:
Matička, Jiří ; Dytrych, Jaroslav (referee) ; Otrusina, Lubomír (advisor) Document type: Bachelor's theses
Year:
2010
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá převody vědeckých článků v elektronické podobě z různých formátů do prostého textu. Zaměřuje se hlavně na množinu problematických článků, u kterých je možné odhalit určité prvky způsobující neakceptovatelný výstup. Bylo proto zkoumáno mnoho převodních nástrojů a vybrán ten, jehož výstup nejvíce odpovídá požadované přesnosti převodů. Další část práce řeší problematiku automatizace převodu. Spadá sem vytvoření požadavku na převod, předání všech článků k převodu, vlastní převod, detekování ukončení převodu, kontrola výsledků převodu a předání převedených článků zpět. Toho je dosaženo na principu komunikace architektury klient/server, spoluprací skriptů napsaných v jazyce Python a dostupných potřebných knihoven. Z pohledu klienta je nutné vytvořit pouze seznam článků na převod a zavolat příslušnou funkci (vytvořit požadavek). O zbytek procesu je postaráno automaticky a výsledné textové soubory má klient k dispozici v předem zvolené složce.
Purpose of this bachelor's work is a research in the area of converting scientific articles in electronic form to plain text. Main topic is the group of problematic articles with certain possible components causing non-acceptable output. Many conversion tools were investigated and the one with the required and most accurate conversion was chosen. Second part of this thesis examines the problematic of automated conversion, including creation of conversion request, forward of all articles to conversion, the conversion itself, detection of finished conversions and delivery of all converted articles. To achieve this objective, a communication principle based on client/server in conjuction with Python scripts and available needed libraries were created. From the client's point of view, it is required only to create a list of articles for conversion and then call the appropriate function (create a request). Rest of the process is taken care of automatically and the resulting text files are available for the client in a folder set beforehand.
Keywords:
conversions of articles; electronic articles; ocr; pdf; plain text; science articles; elektronické články; konverze článků; ocr; pdf; prostý text; převody článků; vědecké články
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/55944