Název:
Framework pro extrakci informací z velkého množství jazykových dat
Překlad názvu:
Framework for information extraction from the large language data sets
Autoři:
Kuboň, David ; Križ, Vincent (vedoucí práce) ; Bednárek, David (oponent) Typ dokumentu: Bakalářské práce
Rok:
2014
Jazyk:
cze
Abstrakt: [cze][eng] Tato práce popisuje program FAFEFI sloužící k extrakci n-gramů a skip-gramů z velkého množství jazykových dat. Řeší možnosti předání vstupních dat programu, návrh datových struktur pro reprezentaci n-gramů a skip-gramů v paměti, algoritmus jejich extrakce, paměťově úsporné varianty uložení extrahovaných dat a jejich finální zpracování do výstupních vektorů příznaků. Představuje i řadu rozšiřujících funkcí programu, jako jsou například řádkový filtr vstupních dat a modifikátor obsahu řádků, a široké spektrum konfigurovatelných parametrů - oddělovači v souborech počínaje a názvy výstupních souborů konče. Mimoto poskytuje variabilitu prováděných činností v podobě meziukládání trénovací sady dat a prezentuje nástroje pro paralelizaci výpočtu na clusteru. Powered by TCPDF (www.tcpdf.org)This thesis describes the FAFEFI program that focuses on n-gram and skip-gram extraction from large data sets. The thesis presents two different approaches to passing input data to the program. It also describes the design of data structures for n-gram and skip-gram representation within computer memory, the algorithm of n-gram and skip-gram extraction, memory-friendly options of saving extracted data and their final composition into output feature vectors. It also offers a variety of extra functions such as line filter and line modifier and a great deal of configurable parameters ranging from in-file separators to formatting the names of output files. Moreover, the program provides a differentiation in its activity by enabling saving data just after extraction from the train set and brings tools for cluster parallelization. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
n-gramy; skip-gramy; strojové učení; vektory příznaků; velké množství dat; feature vectors; large data; machine learning; n-grams; skip-grams