Original title:
Odvození slovníku pro nástroj Process Inspector na platformě SharePoint
Translated title:
Derivation of Dictionary for Process Inspector Tool on SharePoint Platform
Authors:
Pavlín, Václav ; Masařík, Karel (referee) ; Kreslíková, Jitka (advisor) Document type: Master’s theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku.
This master's thesis presents methods for mining important pieces of information from text. It analyses the problem of terms extraction from large document collection and describes the implementation using C# language and Microsoft SQL Server. The system uses stemming and a number of statistical methods for term extraction. This project also compares used methods and suggests the process of the dictionary derivation.
Keywords:
C#; chi-square; frequency analysis; MSSQL.; MySQL; Perl; stemming; term extraction; Text mining; tf-idf; C#; chí kvadrát; Dolování z textu; extrakce pojmů; frekvenční analýza; lemmatizace; MSSQL.; MySQL; Perl; tf-idf
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53734