Název:
Extrakce textu z PDF
Překlad názvu:
PDF Text Extraction
Autoři:
Kubík, Petr ; Otrusina, Lubomír (oponent) ; Schmidt, Marek (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2010
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Práce se zabývá extrakcí textu z dokumentu PDF, obsahující především vícesloupcový text. Je zde popsána struktura PDF a rozbor získání textu z PDF. Práce se dále zaměřuje na návrh a implementaci algoritmu vylepšujicí extrakci textu.
Bachelor's thesis is concerned with text extraction from PDF dokument which contains mainly multi-column text. There's a description of PDF structure and analysis of text extraction from PDF document. Thesis is focused on suggestion of algorithm's implementation of improving text extraction.
Klíčová slova:
formát PDF; formátování výstupu; PDFBox; pdftotext; poppler; proud; reprezentace textu; slovník; tok textu; dictionary; flow text; format output; format PDF; PDFBox; pdftotext; poppler; reprezentation text; stream
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/56037