Содержание
- 2. Строковые метрики Расстояние Хэмминга Расстояние Левенштейна Расстояние Дамерай-Левенштейна, Метрика Нидлмана-Вунша, Метрика Смита-Вотермана Bag distance Метрики Jaro,
- 3. Операции преобразования строк Подстановка kill bill Вставка kill skill Удаление fear ear
- 4. 1. Расстояние Хэмминга (подстановка) dH(GCAT,CGAT) = 2 2. Расстояние Левенштейна (удаление, вставка, подстановка) dE(CGACG, GTCGA) =
- 5. Подсчет расстояния Левенштейна i j
- 6. Подсчет расстояния Левенштейна 0 0
- 7. Подсчет расстояния Левенштейна
- 8. Подсчет расстояния Левенштейна
- 9. Подсчет расстояния Левенштейна
- 10. Подсчет расстояния Левенштейна
- 11. Подсчет расстояния Левенштейна
- 12. Подсчет расстояния Левенштейна
- 13. Расстояние Дамерау-Левенштейна (перестановка соседних символов) dDL(GCAT,CGAT) = 1 Метрика Нидлмана-Вунша (за операции вставки, удаления, подстановки можно
- 14. Штраф за пропуски Константный штраф dC(“gov”, “government”) = 3 Линейный штраф dL(“gov”, “government”) = 3 *
- 15. Bag distance (Bartolini, 2002)
- 16. Bag distance metric s = “bread” t = “beer” M(s) = {‘b’,‘r’,‘e’,‘a’,‘d’} M(t) = {‘b’,‘e’,‘e’,‘r’} M(s)
- 17. Jaro metric (Winkler, 1999) J(s,t) = ⅓*(Is’I/IsI + It’I/ItI + (Is’I – [Ts’,t’ /2])/Is’I) s =
- 18. Jaro metric (Winkler, 1999) Общие символы ai = bj R = [max(IsI,ItI)/2] - 1 s t
- 19. Jaro metric 1. s = “CRETA” t = “TRACES” 2. R = [max(|s|, |t|)/2] – 1
- 20. Jaro-Winkler metric JW(s,t) = J(s,t) + α* boost(s,t)*(1-J(s,t)) boost(s,t) = min( ILcp(s,t)I, p) s = “DIXON”
- 21. q-grams metric (Gravano, 2001) q-gram – подстрока заданной строки длины q s = “MARTHA” q =
- 22. q-grams metric s = “MARTHA” t = “MARCH” G2(s) = { “#M”,“MA”, “AR”, “RT”, “TH”, “HA”,
- 23. Skip-gram metric (Keskustalo, 2003) Skip-gram – “q-грамма”, которая может состоять из несоседних символов s = “MARTHA”
- 24. Общий префикс(Common Prefix) 2 CPα(s,t) = (|Lcp(s,t)| + α) / (|s| * |t|) s = “MARTHA”
- 25. Наибольшая общая подстрока 0, |Lcs(s,t)| |Lcs(s,t)| + LCS(s-Lcs(s,t), t-Lcs(s,t)) s = “abcdeftg” t = “bcdaefg” k
- 26. Weighted LCS |Lcs(s,t)| + α – max(α,p) |Lcs(s,t)| + α wLcs(s,t) =
- 27. Monge-Elkan (Monge and Elkan, 1996) s = {s1s2..sK} t = {t1t2..tL} Monge-Elkan(s,t) = 1/K * Ʃ
- 28. Наборы тестирующих данных Польские имена (1457) Полные польские имена (1219)
- 29. Результаты исследования
- 31. Скачать презентацию