Слайд 2Содержание
Что такое коллективный разум?
Машинное обучение
Рекомендация товара на основе коллаборативной фильтраций
Литература
Слайд 3Что такое коллективный разум?
Коллективный разум в жизни
Задача1
Хотим посетить кинотеатр, но не знаем
на какой фильм идти лучше
Решение:
Спрашиваем у людей, которые посмотрели
Рецензия зрителей
Оценка кинокритиков
Задача2
Хотим купить новую художественную литературу, но не знаем какую выбрать
Решение:
Смотрим отзывы людей, которые читали эту книжку
Слайд 4В 2006 году Компания Netflix занимающийся онлайн прокатом DVD, объявляет конкурс на
1 млн. долларов по улучшению точности системы рекомендования фильмов на 10%. 2007 году победителю удалось добиться улучшения на 7%. Пользуясь данными о том, какие фильмы нравятся пользователям, Netflix удается рекомендовать своим клиентам такие фильмы, о которых они даже не слышали.
В 1998 году запускается новая поисковая машина Google, когда на рынке уже имелось несколько крупных поисковых систем. Основатели разработали новый подход к ранжированию результатов поиска, основанный на использовании ссылок с миллионов сайтов.
В 2004 году поисковик обслуживал 85% всех поисковых запросов всего Интернета.
Общее между этими компаниями: выстроили бизнес на применении изощренных алгоритмов объединения данных, полученных от множества людей.
Слайд 5Что такое коллективный разум?
Определение
Извлечение нового знания из объединенных предпочтений, поведения и представлений
некоторой группы.
Слайд 6
Каким образом извлечь полезную информацию?
Слайд 7Машинное обучение
или анализ данных(Data Mining)
Определение
подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных
обучаться.
Некоторые задачи машинного обучения
Задача классификации
Задача восстановления регрессии
Задача кластеризации
Слайд 8Машинное обучение
Задача классификации
Имеются
набор реклам(товаров, новостей и т.д.), которых нужно отобразить на
сайте
посетители и пользователи этого сайта.
Какие из реклам нужно показать для определенного пользователя, чтобы тот «кликал» по ним?
Для пользователя имеем:
Историю продаж
Историю посещения страниц
Слайд 9Машинное обучение
Обучающая выборка
История продаж
История посещения страниц
Требуется
Построить алгоритм(классификатор), который по набору признаков
реклам(товаров, новостей и т.д.) определяет отображать(1-класс) данные на сайте для данного пользователя или нет(2-класс).
Слайд 10Примеры задач классификации
Медицинская диагностика: по набору медицинских характеристик требуется поставить диагноз
Геологоразведка: по
данным зондирования почв определить наличие полезных ископаемых
Оптическое распознавание текстов: по отсканированному изображению текста определить цепочку символов, его формирующих
Кредитный скоринг: по анкете заемщика принять решение о выдаче/отказе кредита
Синтез химических соединений: по параметрам химических элементов спрогнозировать свойства получаемого соединения
Слайд 11Рекомендация товара на основе коллаборативной фильтрации
Рекомендацию можно получить достаточно спросив у друзей,
знакомых и т.д.
Но по мере увеличения количества предложений становится все менее практично основывать решение на основе небольшой группы людей
Слайд 12Рекомендация товара на основе коллаборативной фильтрации
Коллаборативная фильтрация
просматривает большую группу людей и отыскивает
в ней меньшую группу с такими же вкусами, как у вас.
смотрит, какие еще вещи им нравятся, объединяет предпочтения
создает ранжированный список предложений
Слайд 19Рекомендация товара на основе коллаборативной фильтрации
Рассмотрим систему рекомендаций фильмов для определенного пользователя
на основе оценок кинокритиков
Слайд 20Рекомендация товара на основе коллаборативной фильтрации
Сбор данных о предпочтениях
Язык программирования Python
Способ преставления
кинокритиков – вложенный словарь
Слайд 21Рекомендация товара на основе коллаборативной фильтрации
Нахождение похожих критиков
Собрав данные, нужно определить насколько
их вкусы схожи
Оценка подобия
Коэффициент корреляции Пирсона
Евклидовое расстояние
Манхэттенское расстояние
Метрика Махаланобиса
Слайд 22Рекомендация товара на основе коллаборативной фильтрации
Коэффициент корреляции Пирсона
- выборочные дисперсии
- выборочные средние
-
выборки
Слайд 23Рекомендация товара на основе коллаборативной фильтрации
Коэффициенты корреляции Пирсона
Слайд 24Рекомендация товара на основе коллаборативной фильтрации
Ранжирование критиков
С помощью оценки подобия ищем наилучшее
соответствие между критиками
Ищем кинокритиков с таким или наиболее схожим со вкусом пользователя
Слайд 25Ранжирование критиков
Рекомендация товара на основе коллаборативной фильтрации
Слайд 26Рекомендация товара на основе коллаборативной фильтрации
Ранжирование фильмов
Вычисляется взвешенная сумма оценок критиков
Сортировка по
получившимся результатам
Слайд 27Рекомендация товара на основе коллаборативной фильтрации
Результат
Слайд 28Литература
Сегаран Т. – Программируем коллективный разум, O’Reilly, 2008 г.
Ветров Д. П., Кропотов
Д. А. – Байесовские методы машинного обучения, Курс лекции
Дьяконов А.Г. – Анализ данных, обучение по прецедентам, Издательский отдел факультета ВМК МГУ имени Ломоносова, 2010
www.machinelearning.ru – Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных.