Слайд 2Содержание
Постановка задачи
Мотивация
Примеры моделей рекомендательных систем
User-based RS
Item-based RS
Выбор меры (метрики) сходства
Методика сравнения
Данные MovieLens
и Yahoo
Результаты
Выводы и дальнейшая работа
Слайд 3Постановка задачи
Зная предпочтения конкретного пользователя и остальных, выдать ему релевантную рекомендацию
Оценка (проверка)
качества рекомендаций
Слайд 4Мотивация
Существует огромное количество РС
Требуются эффективные алгоритмы
Время выполнения
Качество рекомендаций
Количество ошибок и полнота рекомендаций
Слайд 5User-based RS
целевой пользователь
- предметы, которые он оценивал
- сходство
с пользователем
- top-n ближайших к
нему соседей, n определяет
- пользователи из ,
которые оценили предмет i
- оценка предмета i пользователем u
предсказанная системой оценка для целевого пользователя:
Слайд 6Item-based RS
целевой пользователь
- предметы, которые он оценивал
- сходство
товара i с товаром j
- top-n ближайших к нему
товаров, top-n определяет
- для
- оценка предмета i пользователем u
предсказанная системой оценка для целевого
пользователя:
Слайд 8
Выбор меры (метрики) сходства
Сходство, основанное на расстоянии:
Евклида
Хемминга
Корреляция как сходство:
коэффициент Пирсона
Косинусная мера
Коэффициент
Жаккара
Слайд 9Корреляция Пирсона
Недостатки
не определена на векторах с постоянными значениями: (4,4,4,...,4)
теряются рекомендации
a=(0,5,5,4)
b=(0,4,5,0)
Слайд 10
Методика сравнения
Метрики качества: точность и полнота рекомендаций
Скользящий контроль (кросс-валидация)
Слайд 11Точность и полнота
Полнота – число релевантных рекомендаций к числу всех выбранных пользователем
товаров
Точность – число релевантных к числу всех рекомендаций
Слайд 12Скользящий контроль
Разбиение на тестовую и обучающую выборки:
Сокрытие признаков для тестирования рекомендаций:
Вычисление точности
и полноты для
на признаках :
Слайд 13Точность и полнота: раскрытие неопределенностей
else
Слайд 14Алгоритм
Параметры:
test% - размер тестового множества
hidden% - размер скрытого множества признаков
p – число
повторений разбиения на тестовое и обучающее множество
q – число повторений разбиения на оцененное и неоцененное множества признаков
Выход: средние значения точности и полноты по множеству Utest и Ihidden
Слайд 15
Данные MovieLens и Yahoo
MovieLens 100K dataset:
943 пользователя
1,682 фильма
Каждый оценил как минимум 20
фильмов, всего 100,000 оценок
Yahoo binary dataset:
2,000 фирм
3,000 рекламных словосочетаний
92,345 ненулевых ячеек
Слайд 23Выводы и дальнейшая работа
Предложенная методика позволяет оценить качество работы рекомендательной системы вне
зависимости от выбора метода
По-видимому, впервые в экспериментах исследуется точность и полнота в зависимости от количества скрытых признаков
Для сравнения методов необходимо проведение аналогичных экспериментов для более совершенных моделей РС, например, основанных на бикластеризации