Слайд 2Понятие спама
Спам - это анонимные незапрошенные массовые рассылки электронной почты (Лаборатория Касперского)
Но:
Спам
![Понятие спама Спам - это анонимные незапрошенные массовые рассылки электронной почты (Лаборатория](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-1.jpg)
в социальных сетях
Спам в IM
Слайд 3Методы борьбы со спамом
Black list
White list
Grey list
Анализ заголовков
Байесовская фильтрация по словам
Генетические алгоритмы
![Методы борьбы со спамом Black list White list Grey list Анализ заголовков](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-2.jpg)
и ручное выставление весов
Обнаружение повторов и признак массовости
Интегрирующие системы
Слайд 4Сигнатурные подходы
Синтаксические
Оперируют цепочками слов
«Шинглы»:
вычисление контрольных сумм для всех подцепочек текста
построение случайной
![Сигнатурные подходы Синтаксические Оперируют цепочками слов «Шинглы»: вычисление контрольных сумм для всех](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-3.jpg)
выборки из полученного набора
Лексические
Оперируют словарем
Метод опорных векторов
Слайд 5Сообщения-трансформеры
Сообщения, имеющие сходное содержание, но различные по форме
Каждое отдельное письмо выглядит как
![Сообщения-трансформеры Сообщения, имеющие сходное содержание, но различные по форме Каждое отдельное письмо](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-4.jpg)
обычный связный текст, и, только имея много копий сообщения, можно установить факт перефразировки
Слайд 6Классификация спама
По структуре:
спам, замаскированный под личную корреспонденцию
спам, замаскированный под легальные массовые рассылки
рекламный
![Классификация спама По структуре: спам, замаскированный под личную корреспонденцию спам, замаскированный под](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-5.jpg)
спам
По тематике:
Нигерийские письма
Цепочечные письма
«страшилки»
письма счастья
Быстрый заработок
Реклама
Программное обеспечение
Медикаменты
Образование
Финансы
Страхование…
Слайд 7Методы трансформирования сообщения
Транслитерация
Намеренные опечатки
Синонимия
Замена букв цифрами и наоборот (4-ч, 0-о, 3-з,
![Методы трансформирования сообщения Транслитерация Намеренные опечатки Синонимия Замена букв цифрами и наоборот](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-6.jpg)
1-l)
Замена кириллических символов схожими символами латиницы (k-к, а-a, Н –H и т.д.)
Введение дополнительных символов («Вы хотите ве рнуть вашего любимо го челове ка навсегда и полность ю избавиться от измен?»)
Чередование различных символов (например, в номерах телефонов)
Варьирование электронного адреса
Варьирование ссылок…
Слайд 8Алгоритм выявления писем-трансформеров
На основе квантитативных характеристик с применением машины опорных векторов новое
![Алгоритм выявления писем-трансформеров На основе квантитативных характеристик с применением машины опорных векторов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-7.jpg)
сообщение относится к той или иной категории
В качестве уточняющего признака используется триграммное сходство с учетом расстояния Дамерау-Левенштейна и выявленных правил замены символов
Слайд 9Квантитативные характеристики
доля полнозначных и служебных слов
доля предложений, слов и абзацев определенной длины
доля
![Квантитативные характеристики доля полнозначных и служебных слов доля предложений, слов и абзацев](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-8.jpg)
вхождения каждой части речи (краткие и полные формы прилагательных и причастий мы считали различными частями речи)
количество знаков препинания
совстречаемость частей речи
и т.д.
Общее число признаков – 135
Слайд 10Доли последовательностей
частей речи
![Доли последовательностей частей речи](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-9.jpg)
Слайд 11Email базы
Мера сходства, вычисленная при помощи триграмм
sWEVIE email BAZY pRODAVA BAZ email
![Email базы Мера сходства, вычисленная при помощи триграмм sWEVIE email BAZY pRODAVA](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-10.jpg)
ADRESOW (ADRESA DLQ email RASSYLOK) <...>
aDRESA DLQ email RASSYLOK pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...>
Слайд 12ЕГРЮЛ
Мера сходства, вычисленная при помощи триграмм
![ЕГРЮЛ Мера сходства, вычисленная при помощи триграмм](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-11.jpg)
Слайд 13Параметры машины опорных векторов для определения писем-трансформеров на русском языке
Sample size =
![Параметры машины опорных векторов для определения писем-трансформеров на русском языке Sample size](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-12.jpg)
707 (Train), 236 (Test), 943 (Overall)
Support Vector machine results:
SVM type: Classification type 1 (capacity=10,000)
Kernel type: Radial Basis Function (gamma=0,007)
Number of support vectors = 118 (0 bounded)
Support vectors per class: 94 (0), 16 (1), 8 (2)
Class. accuracy (%) = 100,000(Train), 100,000(Test), 100,000(Overall)
Слайд 14Знакомства
Мера сходства, вычисленная при помощи триграмм
![Знакомства Мера сходства, вычисленная при помощи триграмм](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-13.jpg)
Слайд 15Медикаменты
Мера сходства, вычисленная при помощи триграмм
![Медикаменты Мера сходства, вычисленная при помощи триграмм](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-14.jpg)
Слайд 18Выводы
Контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, IM, социальные
![Выводы Контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, IM,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/427445/slide-17.jpg)
сети), т.к. онa не опирается на служебную информацию
Особо рассматривается проблема обнаружения намеренно искаженных фрагментов
Предлагается метод детектирования массовых сообщений, фильтрация которых затруднительна из-за меняющегося контента. Рассматриваются возможности увеличения производительности за счет использования методов Монте-Карло
Предложенный двушаговый метод обнаружения писем-трансформеров в почтовом потоке является улучшением сигнатурного метода