Q (Q-грамы), далее осуществляется сравнение наборов подстрок и, исходя из количества совпавших подстрок, можно сделать выводы об их похожести или непохожести [23]. Судя по опытным данным, наиболее оптимальным является деление на подстроки длины Q = 2 (би-грамы). Количество K Q-грам в строке рассчитывается по следующей формуле:
К = Длина строки - Q + 1
Приведем небольшой пример реализации. Возьмем две строки:
"Строительство ТЭС" (эталон) и "ТЭС строится"
Совпадением считается одинаковый грам эталона и рабочей строки. Для примера они помечены цветом. Теперь определим критерий идентичности двумя способами:
КИ1 = Количество совпадений/ К эталона = 7/16 = 0.43
КИ2 = Количество совпадений * 2 / (К эталона + К рабочей строки) = 7*2/(16+11)= 0.52