Original title:
Získávání skrytých znalostí z online dat souvisejících s vysokými školami
Authors:
Hlaváč, Jakub Document type: Master’s theses
Year:
2019
Language:
cze Abstract:
[cze][eng] Sociální sítě představují populární formu komunikace. Univerzitám usnadňují poskytování informací a oslovení uchazečů o studium. Trendem je také vzdělávání prostřednictvím zahraničních studijních pobytů. Studenti se však setkávají s řadou překážek. Výsledky této práce mohou pomoci univerzitám efektivněji komunikovat prostřednictvím sociálních sítí a lépe podporovat zahraniční pobyty. V rámci práce byla analyzována data ze sociálních sítí českých univerzit a data z průzkumů organizace Erasmus za účelem nalezení užitečných znalostí. Hlavní pozornost byla věnována zkoumání textových dat. Převážně byly využity statistické metody a metody strojového učení včetně výběru proměnných, modelování témat a shlukování. Výstupem jsou témata, která jsou na sociálních sítích populární a zajímavá. Dále byly identifikovány klíčové problémy studentů při zahraničních pobytech a vybrané z nich byly srovnávány pro země i univerzity.Social networks are a popular form of communication. They are also used by universities in order to simplify information providing and addressing candidates for study. Foreign study stays are also a popular form of education. Students, however, encounter a number of obstacles. The results of this work can help universities make their social network communication more efficient and better support foreign studies. In this work, the data from Facebook related to Czech universities and the Erasmus program questionnaire data were analyzed in order to find useful knowledge. The main emphasis was on textual content of communication. The statistical and machine learning methods, including mostly feature selection, topic modeling and clustering were used. The results reveal interesting and popular topics discussed on Czech universities social networks. The main problems of students related to their foreign studies were identified too and some of them were compared for countries and universities.
Keywords:
dolování z textu; k-means; latent semantic analysis; modelování témat; non-negative matrix factorization; shlukování; sociální média; strojové učení; výběr proměnných; zpracování přirozeného jazyka