Original title:
Identifikace pohlaví z textu
Translated title:
Gender recognition from the text data
Authors:
Mačát, Jakub ; Burda, Karel (referee) ; Červenec, Radek (advisor) Document type: Bachelor's theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Práce je zaměřena na identifikaci pohlaví z textu výhradně z emailové formy a s tím spojené současné metody získávání dat a textu. Jejich výhody, nevýhody a možnosti použití. Dále byl realizován program na rozpoznávání pohlaví v programovacím jazyku Java. V programu Rapid Miner je ukázáno zpracování pomocí různých algoritmů strojového učení. U obou programů jsou popsány jejich základní vlastnosti, užité metody a použité operátory při realizaci. Programy byly testovány na reálných datech. Dále jsou zde uvedeny metody na rozšíření programů. Nakonec jsou zobrazeny příklady jak programy zpracovávají zadané úlohy.
This bacheor`s work is focused on gender identification from a text just from an e-mail`s form and also contemporary techniques of data mining and text mining. The technique`s advantages and disadvantages and options of use. There was realized a program for recognizing gender in Java. In a program Rapid Miner is demostrated processing various learning methods. By both programs thete are described their basic attributes, used methods and operators used in the implementation. The programs were tested ona real data. Then there are mentioned methods for program`s extends. eventually there are given examples as the programs process stated assignment.
Keywords:
clustering analysis; Data mining; hash map; machine learning; neural network; text mining; tf - idf; tokenization; dolování textu; dolování znalostí; hashovací tabulka; neuronové sitě; shluková analýza; strojové učení; tf - idf; tokenizace
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/9842