Název:
Automatizované vyhledávání a uchovávání recenzí o produktech
Autoři:
Voráč, Tomáš Typ dokumentu: Diplomové práce
Rok:
2019
Jazyk:
cze
Abstrakt: [cze][eng] Diplomová práce se zabývá problémem automatizovaného vyhledání recenzí na webové stránce a dále také ukládáním nalezených recenzí. V práci jsou podrobně rozepsány možnosti ukládání nestrukturovaných dat a následný výběr nejvhodnějšího úložiště. Hlavní část práce se zabývá rozborem HTML struktury tak, aby bylo možné nalézt požadované informace na webové stránce. Tato práce se zabývá i způsoby určení podobnosti textových řetězců, aby bylo možné určit k jakému produktu nalezená recenze patří. K implementaci byl použit programovací jazyk Python.The diploma thesis deals with the problem of automated searching for reviews on web pages and also the saving of found reviews. In this work are described in detail possibilities of storing unstructured data and subsequent selection of the most suitable storage. The main part of the work deals with the analysis of HTML structure, so that it is possible to find the required information on the website. This work also deals with ways to determine the similarity of text strings in order to determine what product the review found belongs to. The Python programming language was used for implementation.
Klíčová slova:
crawler; framework scrapy; HTML; NoSQL; podobnost textů; scraper; XPath