Слайд 2Понятие спама
Спам - это анонимные незапрошенные массовые рассылки электронной почты (Лаборатория Касперского)
Но:
Спам
в социальных сетях
Спам в IM
Слайд 3Методы борьбы со спамом
Black list
White list
Grey list
Анализ заголовков
Байесовская фильтрация по словам
Генетические алгоритмы
и ручное выставление весов
Обнаружение повторов и признак массовости
Интегрирующие системы
Слайд 4Сигнатурные подходы
Синтаксические
Оперируют цепочками слов
«Шинглы»:
вычисление контрольных сумм для всех подцепочек текста
построение случайной
выборки из полученного набора
Лексические
Оперируют словарем
Метод опорных векторов
Слайд 5Сообщения-трансформеры
Сообщения, имеющие сходное содержание, но различные по форме
Каждое отдельное письмо выглядит как
обычный связный текст, и, только имея много копий сообщения, можно установить факт перефразировки
Слайд 6Классификация спама
По структуре:
спам, замаскированный под личную корреспонденцию
спам, замаскированный под легальные массовые рассылки
рекламный
спам
По тематике:
Нигерийские письма
Цепочечные письма
«страшилки»
письма счастья
Быстрый заработок
Реклама
Программное обеспечение
Медикаменты
Образование
Финансы
Страхование…
Слайд 7Методы трансформирования сообщения
Транслитерация
Намеренные опечатки
Синонимия
Замена букв цифрами и наоборот (4-ч, 0-о, 3-з,
1-l)
Замена кириллических символов схожими символами латиницы (k-к, а-a, Н –H и т.д.)
Введение дополнительных символов («Вы хотите ве рнуть вашего любимо го челове ка навсегда и полность ю избавиться от измен?»)
Чередование различных символов (например, в номерах телефонов)
Варьирование электронного адреса
Варьирование ссылок…
Слайд 8Алгоритм выявления писем-трансформеров
На основе квантитативных характеристик с применением машины опорных векторов новое
сообщение относится к той или иной категории
В качестве уточняющего признака используется триграммное сходство с учетом расстояния Дамерау-Левенштейна и выявленных правил замены символов
Слайд 9Квантитативные характеристики
доля полнозначных и служебных слов
доля предложений, слов и абзацев определенной длины
доля
вхождения каждой части речи (краткие и полные формы прилагательных и причастий мы считали различными частями речи)
количество знаков препинания
совстречаемость частей речи
и т.д.
Общее число признаков – 135
Слайд 10Доли последовательностей
частей речи
Слайд 11Email базы
Мера сходства, вычисленная при помощи триграмм
sWEVIE email BAZY pRODAVA BAZ email
ADRESOW (ADRESA DLQ email RASSYLOK) <...>
aDRESA DLQ email RASSYLOK pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...>
Слайд 12ЕГРЮЛ
Мера сходства, вычисленная при помощи триграмм
Слайд 13Параметры машины опорных векторов для определения писем-трансформеров на русском языке
Sample size =
707 (Train), 236 (Test), 943 (Overall)
Support Vector machine results:
SVM type: Classification type 1 (capacity=10,000)
Kernel type: Radial Basis Function (gamma=0,007)
Number of support vectors = 118 (0 bounded)
Support vectors per class: 94 (0), 16 (1), 8 (2)
Class. accuracy (%) = 100,000(Train), 100,000(Test), 100,000(Overall)
Слайд 14Знакомства
Мера сходства, вычисленная при помощи триграмм
Слайд 15Медикаменты
Мера сходства, вычисленная при помощи триграмм
Слайд 18Выводы
Контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, IM, социальные
сети), т.к. онa не опирается на служебную информацию
Особо рассматривается проблема обнаружения намеренно искаженных фрагментов
Предлагается метод детектирования массовых сообщений, фильтрация которых затруднительна из-за меняющегося контента. Рассматриваются возможности увеличения производительности за счет использования методов Монте-Карло
Предложенный двушаговый метод обнаружения писем-трансформеров в почтовом потоке является улучшением сигнатурного метода