МЕТОДЫ ОБНАРУЖЕНИЯ ПИСЕМ-ТРАНСФОРМЕРОВ

Содержание

Слайд 2

Понятие спама

Спам - это анонимные незапрошенные массовые рассылки электронной почты (Лаборатория Касперского)
Но:
Спам

Понятие спама Спам - это анонимные незапрошенные массовые рассылки электронной почты (Лаборатория
в социальных сетях
Спам в IM

Слайд 3

Методы борьбы со спамом

Black list
White list
Grey list
Анализ заголовков
Байесовская фильтрация по словам
Генетические алгоритмы

Методы борьбы со спамом Black list White list Grey list Анализ заголовков
и ручное выставление весов
Обнаружение повторов и признак массовости
Интегрирующие системы

Слайд 4

Сигнатурные подходы

Синтаксические
Оперируют цепочками слов
«Шинглы»:
вычисление контрольных сумм для всех подцепочек текста
построение случайной

Сигнатурные подходы Синтаксические Оперируют цепочками слов «Шинглы»: вычисление контрольных сумм для всех
выборки из полученного набора
Лексические
Оперируют словарем
Метод опорных векторов

Слайд 5

Сообщения-трансформеры

Сообщения, имеющие сходное содержание, но различные по форме
Каждое отдельное письмо выглядит как

Сообщения-трансформеры Сообщения, имеющие сходное содержание, но различные по форме Каждое отдельное письмо
обычный связный текст, и, только имея много копий сообщения, можно установить факт перефразировки

Слайд 6

Классификация спама

По структуре:
спам, замаскированный под личную корреспонденцию
спам, замаскированный под легальные массовые рассылки
рекламный

Классификация спама По структуре: спам, замаскированный под личную корреспонденцию спам, замаскированный под
спам
По тематике:
Нигерийские письма
Цепочечные письма
«страшилки»
письма счастья
Быстрый заработок
Реклама
Программное обеспечение
Медикаменты
Образование
Финансы
Страхование…

Слайд 7

Методы трансформирования сообщения

Транслитерация
Намеренные опечатки
Синонимия
Замена букв цифрами и наоборот (4-ч, 0-о, 3-з,

Методы трансформирования сообщения Транслитерация Намеренные опечатки Синонимия Замена букв цифрами и наоборот
1-l)
Замена кириллических символов схожими символами латиницы (k-к, а-a, Н –H и т.д.)
Введение дополнительных символов («Вы хотите ве рнуть вашего любимо го челове ка навсегда и полность ю избавиться от измен?»)
Чередование различных символов (например, в номерах телефонов)
Варьирование электронного адреса
Варьирование ссылок…

Слайд 8

Алгоритм выявления писем-трансформеров

На основе квантитативных характеристик с применением машины опорных векторов новое

Алгоритм выявления писем-трансформеров На основе квантитативных характеристик с применением машины опорных векторов
сообщение относится к той или иной категории
В качестве уточняющего признака используется триграммное сходство с учетом расстояния Дамерау-Левенштейна и выявленных правил замены символов

Слайд 9

Квантитативные характеристики

доля полнозначных и служебных слов
доля предложений, слов и абзацев определенной длины
доля

Квантитативные характеристики доля полнозначных и служебных слов доля предложений, слов и абзацев
вхождения каждой части речи (краткие и полные формы прилагательных и причастий мы считали различными частями речи)
количество знаков препинания
совстречаемость частей речи
и т.д.
Общее число признаков – 135

Слайд 10

Доли последовательностей частей речи

Доли последовательностей частей речи

Слайд 11

Email базы

Мера сходства, вычисленная при помощи триграмм

sWEVIE email BAZY pRODAVA BAZ email

Email базы Мера сходства, вычисленная при помощи триграмм sWEVIE email BAZY pRODAVA
ADRESOW (ADRESA DLQ email RASSYLOK) <...>
aDRESA DLQ email RASSYLOK pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...>

Слайд 12

ЕГРЮЛ

Мера сходства, вычисленная при помощи триграмм

ЕГРЮЛ Мера сходства, вычисленная при помощи триграмм

Слайд 13

Параметры машины опорных векторов для определения писем-трансформеров на русском языке

Sample size =

Параметры машины опорных векторов для определения писем-трансформеров на русском языке Sample size
707 (Train), 236 (Test), 943 (Overall)
Support Vector machine results:
SVM type: Classification type 1 (capacity=10,000)
Kernel type: Radial Basis Function (gamma=0,007)
Number of support vectors = 118 (0 bounded)
Support vectors per class: 94 (0), 16 (1), 8 (2)
Class. accuracy (%) = 100,000(Train), 100,000(Test), 100,000(Overall)

Слайд 14

Знакомства

Мера сходства, вычисленная при помощи триграмм

Знакомства Мера сходства, вычисленная при помощи триграмм

Слайд 15

Медикаменты

Мера сходства, вычисленная при помощи триграмм

Медикаменты Мера сходства, вычисленная при помощи триграмм

Слайд 16

Казино

Казино

Слайд 17

Другие примеры

Другие примеры

Слайд 18

Выводы

Контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, IM, социальные

Выводы Контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, IM,
сети), т.к. онa не опирается на служебную информацию
Особо рассматривается проблема обнаружения намеренно искаженных фрагментов
Предлагается метод детектирования массовых сообщений, фильтрация которых затруднительна из-за меняющегося контента. Рассматриваются возможности увеличения производительности за счет использования методов Монте-Карло
Предложенный двушаговый метод обнаружения писем-трансформеров в почтовом потоке является улучшением сигнатурного метода
Имя файла: МЕТОДЫ-ОБНАРУЖЕНИЯ-ПИСЕМ-ТРАНСФОРМЕРОВ.pptx
Количество просмотров: 101
Количество скачиваний: 0