Název:
Využití získávání znalostí pro data z PDF souborů
Překlad názvu:
Use of Knowledge Discovery for Data from PDF Files
Autoři:
Dvořáček, Libor ; Burgetová, Ivana (oponent) ; Bartík, Vladimír (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Bakalářská práce se zabývá extrakcí tabulek z digitálně vytvořených pdf a následným použitím získatých dat pro datovou analýzu. Použity jsou metody redukce dimenzí a shlukové analýzy. Hlavním obsahem je rozbor dostupných nástrojů pro extrakci dat v jazyce python, popis a porovnání použitých metod strojového učení a implementace aplikace, která všechna tato témata sdružuje do jednoho funkčního celku na adrese: http://extraktor.herokuapp.com
This bachelor thesis deals with the extraction of tables from digitally created pdfs and the subsequent use of the obtained data for data analysis. Methods of dimension reduction and cluster analysis are used. The main content is an analysis of available tools for data extraction in the python language, a description and comparison of the used machine learning methods and implementation of an application that combines all these topics into one functional unit at: http://extraktor.herokuapp.com
Klíčová slova:
Dash; data mining; Dendrogram; Heroku; K-MEANS; PCA; PDF; Plotly; Python; redukce dimenzí; shluková analýza; T-SNE; UMAP; získávání znalostí; vizualizace vícerozměrných dat; cluster analysis; Dash; data mining; Dendrogram; dimensionality reduction; Heroku; K-MEANS; knowledge discovery; PCA; PDF; Plotly; Python; T-SNE; UMAP; visualization of high-dimensional datasets
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/199479