Original title:
Extrakce klíčových slov z dokumentů
Translated title:
Keyword Extraction from Documents
Authors:
Matička, Jiří ; Očenášek, Pavel (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Práce se zabývá automatickou extrakcí klíčových slov z dokumentů. Jejím cílem je návrh a implementace aplikace, která bude schopná z dokumentu vyextrahovat množinu klíčových slov vyjadřující co nejpřesněji hlavní obsah dokumentu. Mezi požadavky na aplikaci patří zejména rychlost a přesnost. Proto byly nejprve prostudovány již existující principy a provedena klasifikace metod na základě různých kritérií. Další část práce se zaměřuje na výběr a podrobný popis funkčnosti jedné z metod, která by měla být využita při extrahování klíčových slov. Následuje podrobný návrh celé aplikace a její následná implementace. Důležitá je hlavně poslední kapitola zabývající se testováním aplikace na množině textových dokumentů a vyhodnocením úspěšnosti procesu extrakce.
This thesis pursues an automated extraction of keywords from documents. Its goal is to design and implement an application which will be able to extract an appropriate set of keywords related to the contents of the document. The major requirements for the application are speed and accuracy. That is why the first part of the thesis talks about already developed principles and a detailed classification based on various criteria. The second part is focused on choosing and a thorough functional describing of one of the methods which should have been used for extracting the keywords. The next parts contain a detailed draft of the application and its implementation. Finally, the last chapter is particularly important due to testing the application on a group of text documents and evaluating final results of the extraction process.
Keywords:
automatic keyword extraction; data mining; keywords; RAKE; single document extraction; text mining; automatická extrakce klíčových slov; dolování dat; dolování textu; extrakce z individuálních dokumentů; klíčová slova; RAKE
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53676