Název:
Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Překlad názvu:
Approximate equality of character strings and its application to record linkage in metadata of scientific publications
Autoři:
Dobiášovský, Jan ; Dvořák, Jan (vedoucí práce) ; Ivánek, Jiří (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
cze
Abstrakt: [cze][eng] Práce zkoumá použití přibližné shody znakových řetězců v procesu ztotožňování metadat vědeckých publikací. V teoretické části je poskytnut úvod do problematiky, popsán proces ztotožňování záznamů a pět používaných metrik pro vyjádření podobnosti znakových řetězců (Levenshteinova vzdálenost, Jarova vzdálenost, Jaro-Winklerova vzdálenost, kosinová vzdálenost q-gramů a Jaccardův koeficient). V praktické části je zkoumána možnost použití těchto metrik v systému V3S pro evidenci vědeckých publikací na ČVUT a jejich porovnání. Na trénovací množině byla potvrzena vhodnost využití v systému V3S a stanoveny optimální prahy pro jednotlivé metriky ma základě měr F1, F2 a F3.The thesis explores the application of approximate string matching in scientific publication record linkage process. An introduction to record matching along with five commonly used metrics for string distance (Levenshtein, Jaro, Jaro-Winkler, Cosine distances and Jaccard coefficient) are provided. These metrics are applied on publication metadata from V3S current research information system of the Czech Technical University in Prague. Based on the findings, optimal thresholds in the F1, F2 and F3-measures are determined for each metric.
Klíčová slova:
ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikací; record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadata