Слайд 2Определение
Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.
![Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-1.jpg)
Слайд 3Основные области применения
Финансы
Страхование
Медицина
Биология
Интернет
![Основные области применения Финансы Страхование Медицина Биология Интернет](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-2.jpg)
Слайд 6Структура web content mining
![Структура web content mining](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-5.jpg)
Слайд 7Web usage mining
Извлечение знаний из использования Интернет – поиск нетривиальных потенциально
![Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-6.jpg)
полезных знаний в деятельности пользователей Интернет.
Слайд 8Применения Web usage mining
Персонификация контента
Улучшение работы сети
Модификация сайтов
Исследования сети
![Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-7.jpg)
Слайд 9Этапы Web usage mining
Сбор данных
Обработка данных
Применение методов Data mining
Кластеризация
Поиск ассоциативных правил
Поиск наиболее
![Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-8.jpg)
частых подпоследовательностей
Слайд 11Обработка данных
Очистка данных
Заполнение пути
Выделение пользовательских сессий
![Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-10.jpg)
Слайд 12Ассоциативные правила
Правила вида:
A=>b. Где А - ДНФ
Поддержка – отношение тех элементов где
![Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-11.jpg)
A к общему числу
Уверенность – отношение элементов, где выполняется правило к элементам с А
Слайд 13Цель кластеризации
Уменьшение размерности (выбор представителей)
Генерация гипотез
Проверка гипотез
Прогнозные модели
![Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-12.jpg)
Слайд 14Методы кластеризации
Иерархические
Алгоритмы оптимизации
Основанные на плотности
Нечёткие методы
![Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-13.jpg)
Слайд 15Иерархические методы
N кластеров
На каждом шаге объединение двух самых «близких» кластеров
Расстояние: по наиболее
![Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-14.jpg)
близкими или наиболее удалённым точкам, по центрам.
Слайд 16Нечёткий c-medoids метод
Jm(V;X) =
Минимизируется это значение
Только 30 элементов с наибольшей вероятностью используются
![Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-15.jpg)
для пересчёта центров.
Слайд 18Методы верификации
Сопоставление эталонного разбиения и кластеров
Статистические
Связанные с нечётким разбиением
Комбинированные методы
![Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-17.jpg)
Слайд 19Предлагаемый метод
Сессии представлены как численные векторы
Используюется расстояние редактирования
Расстояние модифицируется с учётом
![Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-18.jpg)
положения страниц
Нечёткий C-Medoids метод
Слайд 20Данные Sigla.ru
70000 посещений в день
1300 сессий в день
50 страниц
Данные за три дня
Сессии
![Данные Sigla.ru 70000 посещений в день 1300 сессий в день 50 страниц](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-19.jpg)
с длинной от 3 до 40 визитов
Слайд 21Расстояние Евклида
Каждая сессия это вектор
vi = {x1,..xn}
xj = 1 если страница
![Расстояние Евклида Каждая сессия это вектор vi = {x1,..xn} xj = 1](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-20.jpg)
j входит в сессию.
xj = 0 иначе.
Слайд 22Расстояние редактирования
Примеры строк: ‘cat’, ‘cash’
CAT -> CAS -> CASH
Общее расстояние 3.
![Расстояние редактирования Примеры строк: ‘cat’, ‘cash’ CAT -> CAS -> CASH Общее расстояние 3.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-21.jpg)
Слайд 23Модификация расстояния
dir11/dir12/pagename1
dir21/dir22/pagename2
Если совпадают dir 11 и dir 21 то уменьшается стоимость замены
Если
![Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-22.jpg)
совпадают dir 21 и dir 22 то стоимость снижается еще больше
Слайд 26Предлагаемая верификация
Подсчёт уникальных ассоциативных правил
Индекс = количество уникальных правил/количество кластеров
![Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/421553/slide-25.jpg)