Технология извлечения знаний из использования Интернет

Февраль 15, 2021

Главная
Разное
Технология извлечения знаний из использования Интернет

Содержание

2. Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.
3. Основные области применения Финансы Страхование Медицина Биология Интернет
4. OLAP/Data mining
5. Структура web mining
6. Структура web content mining
7. Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально полезных знаний в деятельности
8. Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети
9. Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining Кластеризация Поиск ассоциативных правил
10. Сбор информации
11. Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий
12. Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение тех элементов где A
13. Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели
14. Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы
15. Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров Расстояние: по наиболее близкими
16. Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с наибольшей вероятностью используются для
17. Верификация кластеризации
18. Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы
19. Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется с учётом положения страниц
20. Данные Sigla.ru 70000 посещений в день 1300 сессий в день 50 страниц Данные за три дня
21. Расстояние Евклида Каждая сессия это вектор vi = {x1,..xn} xj = 1 если страница j входит
22. Расстояние редактирования Примеры строк: ‘cat’, ‘cash’ CAT -> CAS -> CASH Общее расстояние 3.
23. Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость замены Если
24. Индекс Беждека
25. Энтропия разбиения
26. Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров
27. Предлагаемый метод
29. Скачать презентацию

Слайд 2

Определение
Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.

Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.

Слайд 3

Основные области применения
Финансы
Страхование
Медицина
Биология
Интернет

Основные области применения Финансы Страхование Медицина Биология Интернет

Слайд 4

OLAP/Data mining

OLAP/Data mining

Слайд 5

Структура web mining

Структура web mining

Слайд 6

Структура web content mining

Структура web content mining

Слайд 7

Web usage mining
Извлечение знаний из использования Интернет – поиск нетривиальных потенциально

Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально

полезных знаний в деятельности пользователей Интернет.

Слайд 8

Применения Web usage mining
Персонификация контента
Улучшение работы сети
Модификация сайтов
Исследования сети

Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети

Слайд 9

Этапы Web usage mining
Сбор данных
Обработка данных
Применение методов Data mining
Кластеризация
Поиск ассоциативных правил
Поиск наиболее

Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining

частых подпоследовательностей

Слайд 10

Сбор информации

Сбор информации

Слайд 11

Обработка данных
Очистка данных
Заполнение пути
Выделение пользовательских сессий

Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий

Слайд 12

Ассоциативные правила
Правила вида:
A=>b. Где А - ДНФ
Поддержка – отношение тех элементов где

Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение

A к общему числу
Уверенность – отношение элементов, где выполняется правило к элементам с А

Слайд 13

Цель кластеризации
Уменьшение размерности (выбор представителей)
Генерация гипотез
Проверка гипотез
Прогнозные модели

Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели

Слайд 14

Методы кластеризации
Иерархические
Алгоритмы оптимизации
Основанные на плотности
Нечёткие методы

Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы

Слайд 15

Иерархические методы
N кластеров
На каждом шаге объединение двух самых «близких» кластеров
Расстояние: по наиболее

Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров

близкими или наиболее удалённым точкам, по центрам.

Слайд 16

Нечёткий c-medoids метод
Jm(V;X) =
Минимизируется это значение
Только 30 элементов с наибольшей вероятностью используются

Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с

для пересчёта центров.

Слайд 17

Верификация кластеризации

Верификация кластеризации

Слайд 18

Методы верификации
Сопоставление эталонного разбиения и кластеров
Статистические
Связанные с нечётким разбиением
Комбинированные методы

Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы

Слайд 19

Предлагаемый метод
Сессии представлены как численные векторы
Используюется расстояние редактирования
Расстояние модифицируется с учётом

Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется

положения страниц
Нечёткий C-Medoids метод

Слайд 20

Данные Sigla.ru
70000 посещений в день
1300 сессий в день
50 страниц
Данные за три дня
Сессии

Данные Sigla.ru 70000 посещений в день 1300 сессий в день 50 страниц

с длинной от 3 до 40 визитов

Слайд 21

Расстояние Евклида
Каждая сессия это вектор vi = {x1,..xn}
xj = 1 если страница

Расстояние Евклида Каждая сессия это вектор vi = {x1,..xn} xj = 1

j входит в сессию.
xj = 0 иначе.

Слайд 22

Расстояние редактирования
Примеры строк: ‘cat’, ‘cash’
CAT -> CAS -> CASH
Общее расстояние 3.

Расстояние редактирования Примеры строк: ‘cat’, ‘cash’ CAT -> CAS -> CASH Общее расстояние 3.

Слайд 23

Модификация расстояния
dir11/dir12/pagename1
dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость замены
Если

Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то

совпадают dir 21 и dir 22 то стоимость снижается еще больше

Слайд 24

Индекс Беждека

Индекс Беждека

Слайд 25

Энтропия разбиения

Энтропия разбиения

Слайд 26

Предлагаемая верификация
Подсчёт уникальных ассоциативных правил
Индекс = количество уникальных правил/количество кластеров

Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров

Слайд 27

Предлагаемый метод

Предлагаемый метод