Original title:
Nástroj pro převod PDF na text
Translated title:
A Tool for Transformation of PDF to Text
Authors:
Bujok, Jonáš ; Raab, Jan (advisor) ; Hauzar, David (referee) Document type: Bachelor's theses
Year:
2012
Language:
cze Abstract:
[cze][eng] Název práce: Nástroj pro převod PDF na text Autor: Jonáš Bujok Katedra / Ústav: Ústav formální a aplikované lingvistiky (32-UFAL) Vedoucí bakalářské práce: Mgr. Jan Raab, Ústav formální a aplikované lingvistiky (32-UFAL) Abstrakt: V této práci je podrobně rozebrán postup extrakce textových informací z PDF (Portable Document Format) souborů a navrhnut, popsán a implementován program pro tento účel. Práce se zaměřuje hlavně na středoevropské jazyky. Kromě programu a jeho popisu jsou zde pak informace o objektové struktuře, syntaxi a logice PDF formátu nutné pro správné pochopení principu hledání textu v PDF souboru. Dále jsou zde rozebrány filtry, fonty a všechny další PDF objekty, které takový program musí umět zpracovat. Také se tato práce zabývá metodami a možnostmi vylepšení funkčnosti, rychlosti, paměťové náročnosti, spolehlivosti a univerzálnosti použití programu.Title: A Tool for Transformation of PDF to Text Author: Jonáš Bujok Department: Institute of Formal and Applied Linguistics (32-UFAL) Supervisor: Mgr. Jan Raab, Institute of Formal and Applied Linguistics (32-UFAL) Abstract: In this thesis we described an extraction procedure of text information from PDF (Portable Document Format) files. Thesis is focused mainly on middle-Europe languages. We designed, described and implemented program for this purpose. Besides the program and it's description the thesis contains information about PDF format object structure, it's syntax and logic necessary for proper understanding of text searching principles in PDF file. We also discussed filters, fonts and all other PDF Objects that the program need to process. This thesis also deals with methods and possibilities of improving program's functionality, speed, memory usage, reliability an universality of usage.
Keywords:
convertor; PDF; text; PDF; převodník; text
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/40409