Original title:
Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Translated title:
Approximate equality of character strings and its application to record linkage in metadata of scientific publications
Authors:
Dobiášovský, Jan ; Dvořák, Jan (advisor) ; Ivánek, Jiří (referee) Document type: Master’s theses
Year:
2020
Language:
cze Abstract:
[cze][eng] Práce zkoumá použití přibližné shody znakových řetězců v procesu ztotožňování metadat vědeckých publikací. V teoretické části je poskytnut úvod do problematiky, popsán proces ztotožňování záznamů a pět používaných metrik pro vyjádření podobnosti znakových řetězců (Levenshteinova vzdálenost, Jarova vzdálenost, Jaro-Winklerova vzdálenost, kosinová vzdálenost q-gramů a Jaccardův koeficient). V praktické části je zkoumána možnost použití těchto metrik v systému V3S pro evidenci vědeckých publikací na ČVUT a jejich porovnání. Na trénovací množině byla potvrzena vhodnost využití v systému V3S a stanoveny optimální prahy pro jednotlivé metriky ma základě měr F1, F2 a F3.The thesis explores the application of approximate string matching in scientific publication record linkage process. An introduction to record matching along with five commonly used metrics for string distance (Levenshtein, Jaro, Jaro-Winkler, Cosine distances and Jaccard coefficient) are provided. These metrics are applied on publication metadata from V3S current research information system of the Czech Technical University in Prague. Based on the findings, optimal thresholds in the F1, F2 and F3-measures are determined for each metric.
Keywords:
record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadata; ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikací
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/118610