Original title:
Extrakce textu z PDF
Translated title:
PDF Text Extraction
Authors:
Kubík, Petr ; Otrusina, Lubomír (referee) ; Schmidt, Marek (advisor) Document type: Bachelor's theses
Year:
2010
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Práce se zabývá extrakcí textu z dokumentu PDF, obsahující především vícesloupcový text. Je zde popsána struktura PDF a rozbor získání textu z PDF. Práce se dále zaměřuje na návrh a implementaci algoritmu vylepšujicí extrakci textu.
Bachelor's thesis is concerned with text extraction from PDF dokument which contains mainly multi-column text. There's a description of PDF structure and analysis of text extraction from PDF document. Thesis is focused on suggestion of algorithm's implementation of improving text extraction.
Keywords:
dictionary; flow text; format output; format PDF; PDFBox; pdftotext; poppler; reprezentation text; stream; formát PDF; formátování výstupu; PDFBox; pdftotext; poppler; proud; reprezentace textu; slovník; tok textu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/56037