Original title:
Modely podobnosti pro content-based video retrieval
Translated title:
Similarity Models for Content-based Video Retrieval
Authors:
Veselý, Patrik ; Peška, Ladislav (advisor) ; Sixtová, Ivana (referee) Document type: Master’s theses
Year:
2023
Language:
eng Abstract:
[eng][cze] Multimedia retrieval is increasingly important with the skyrocketing multimedia vol- umes produced every day. Therefore many image and video retrieval tools are being developed utilising visual similarity modelling algorithms for similar image retrieval or various visualisations. As such, the quality of the similarity modelling is crucial for these tools. This thesis explores diverse similarity models, their agreement with human percep- tion of similarity and possible improvements of these models. The examined similarity models consisted of colour-based, SIFT-based, and DNN-based models. For the purpose of model evaluation, a user study was conducted to create a dataset of relative image similarity comprising both generic images as well as two compact domains. In this study, the participants were asked to state which of the candidate images was more similar to the query image. The collected data showed the superiority of DNN-based models compared to other evaluated variants. Nonetheless, all similarity models performed significantly better than a random guess. In order to further enhance the performance of the simi- larity models, we fine-tuned the best-performing model (W2VV++) with the collected dataset and achieved significant improvement in some areas. 1Vyhledávání multimédií je stále důležitější vzhledem k prudce rostoucímu objemu mul- timediálního obsahu. Proto je vyvíjeno mnoho nástrojů pro vyhledávání obrázků a videí, které využívají algoritmy modelování vizuální podobnosti pro vyhledávání podobných obrázků nebo tvorbu různých vizualizací. Tím pádem kvalita modelování podobnosti je pro tyto nástroje klíčová. Tato práce zkoumá různé modely podobnosti, jejich shodu s lidskými anotacemi a potenciální zlepšení. Do studie byly zahrnuty 3 třídy modelů podobnosti: modely založených na barvách, SIFTu nebo hlubokých neuronových sítí. Za tímto účelem byla provedena uživatelská studie s cílem vytvořit dataset relativních podob- ností obrázků s obecnými i specifickými obrázky. V této studii byli účastníci požádáni, aby vždy vybrali mezi dvěma možnostmi tu, která byla podobnější hlavnímu obrázku. Shromážděná data ukázala lepší výsledky modelů založených na hlubokých neuronových sítích ve srovnání s ostatními hodnocenými variantami. Nicméně všechny modely podob- nosti si vedly výrazně lépe než náhodný odhad. Abychom dále zvýšili přesnost modelů podobnosti, vyladili jsme model W2VV++ pomocí získaného datasetu. Díky tomu jsme v některých doménách dosáhli výrazného zlepšení. 1
Keywords:
multimedia retrieval|similarity models|deep learning|user study; multimedia retrieval|modely podobnosti|deep learning|uživatelská studie
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/184084