Линейные модели: введение

Содержание

Слайд 2

Что нужно для понимания*

Теория вероятностей и математическая статистика
Линейная алгебра
Язык

Что нужно для понимания* Теория вероятностей и математическая статистика Линейная алгебра Язык программирования Санкт-Петербург, 2020
программирования

Санкт-Петербург, 2020

Слайд 3

Как отчитываться

Будет экзамен, возможно письменный
Возможно тесты перед лекцией

Санкт-Петербург, 2020

Как отчитываться Будет экзамен, возможно письменный Возможно тесты перед лекцией Санкт-Петербург, 2020

Слайд 4

Цель

Уметь сформулировать задачу в терминах ML
Найти подходящий класс решающих

Цель Уметь сформулировать задачу в терминах ML Найти подходящий класс решающих алгоритмов
алгоритмов по формулировке
Ориентироваться в области и знать “где посмотреть” существующие решения
Понимать границы применимости

Санкт-Петербург, 2020

Слайд 5

Что будет в модуле

Общая картина дисциплины
Линейные модели
Интерпретация линейных моделей

Санкт-Петербург,

Что будет в модуле Общая картина дисциплины Линейные модели Интерпретация линейных моделей Санкт-Петербург, 2020
2020

Слайд 6

Чего не будет в модуле

Time series
Полноценного Data Mining

Санкт-Петербург, 2020

Чего не будет в модуле Time series Полноценного Data Mining Санкт-Петербург, 2020

Слайд 7

Что почитать?

Википедия
R. Tibshirani, J. Friedman “Introduction to Statistical Learning”

Что почитать? Википедия R. Tibshirani, J. Friedman “Introduction to Statistical Learning” T.

T. Hastie, R. Tibshirani, J. Friedman “The elements of Statistical Learning” **
Труды конференций: ICML, NIPS, CIKM, KDD, etc. **

Санкт-Петербург, 2020

Слайд 8

Машинное обучение: определение

Машинное обучение — обширный подраздел искусственного интеллекта, изучающий методы построения

Машинное обучение: определение Машинное обучение — обширный подраздел искусственного интеллекта, изучающий методы
алгоритмов, способных обучаться
ru.wikipedia.org

Санкт-Петербург, 2020

Слайд 9

Машинное обучение: определение

Machine learning — the ability of a machine to improve

Машинное обучение: определение Machine learning — the ability of a machine to
its performance based on previous results.
Webster

Санкт-Петербург, 2020

Слайд 10

Машинное обучение: определение

A computer program is said to learn from experience E

Машинное обучение: определение A computer program is said to learn from experience
with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
Tom M. Mitchell

Санкт-Петербург, 2020

Слайд 11

Машинное обучение в картинках

Санкт-Петербург, 2020

Машинное обучение в картинках Санкт-Петербург, 2020

Слайд 12

История

50-70гг — базы знаний, полнотекстовый поиск, распознавание образов, нейронные сети
70-80гг —

История 50-70гг — базы знаний, полнотекстовый поиск, распознавание образов, нейронные сети 70-80гг
ID3 деревья, разумные практические результаты, VC-оценки
80-90гг — первые конференции, много практического применения, активное применение кластеризации в анализе
90-00гг — повторное сэмплирование в ML, SVM, применение в IR, ML != DM, LASSO, bootstrap, bagging, boosting
00-10гг — Compressed sensing и прочие восстановления сигналов, царство деревьев, развитие ансамблей, . . .
10-20гг — Deep Learning, Convolutional, Recurrent, GANN, Transformers

Санкт-Петербург, 2020

Слайд 13

Основные понятия

 

Санкт-Петербург, 2020

Основные понятия Санкт-Петербург, 2020

Слайд 14

Задача обучения

 

Санкт-Петербург, 2020

Задача обучения Санкт-Петербург, 2020

Слайд 15

Классификация машинного обучения
ML можно делить по:
виду целевой функции;
способу получения опыта;
классу решающих

Классификация машинного обучения ML можно делить по: виду целевой функции; способу получения
функций.

Санкт-Петербург, 2020

Слайд 16

Классификация машинного обучения
ML можно делить по:
виду целевой функции;
способу получения опыта;
классу решающих

Классификация машинного обучения ML можно делить по: виду целевой функции; способу получения
функций.

Санкт-Петербург, 2020

Слайд 17

Классификация машинного обучения: цель

С учителем
классификация (classification);
регрессия (regression);
отношение порядка (learning to rank);
обучение

Классификация машинного обучения: цель С учителем классификация (classification); регрессия (regression); отношение порядка
метрики (metric learning).
Без учителя:
кластеризация (cluster analysis);
уменьшение размерности (dimensionality reduction);
обучение отображению (representation learning).
Смешанные

Санкт-Петербург, 2020

Слайд 18

Классификация машинного обучения: цель

С учителем
классификация (classification);
регрессия (regression);
отношение порядка (learning to rank);
обучение

Классификация машинного обучения: цель С учителем классификация (classification); регрессия (regression); отношение порядка
метрики (metric learning).
Без учителя:
кластеризация (cluster analysis);
уменьшение размерности (dimensionality reduction);
обучение отображению (representation learning).
Смешанные

Санкт-Петербург, 2020

Слайд 19

Обучение с учителем: два примера

 

Санкт-Петербург, 2020

Обучение с учителем: два примера Санкт-Петербург, 2020

Слайд 20

Санкт-Петербург, 2020

Санкт-Петербург, 2020

Слайд 21

Классификация в картинках

Санкт-Петербург, 2020

Классификация в картинках Санкт-Петербург, 2020

Слайд 22

Регрессия в картинках

Санкт-Петербург, 2020

Регрессия в картинках Санкт-Петербург, 2020

Слайд 23

Классификация машинного обучения
ML можно делить по:
виду целевой функции;
способу получения опыта;
классу решающих

Классификация машинного обучения ML можно делить по: виду целевой функции; способу получения
функций.

Санкт-Петербург, 2020

Слайд 24

Классификация машинного обучения: опыт

Transductive learning
Обычное обучение
Активное обучение (active learning)
Обучение с

Классификация машинного обучения: опыт Transductive learning Обычное обучение Активное обучение (active learning)
бюджетом (budget learning)
Интерактивное обучение (online learning)
Многорукие бандиты (multi-armed bandits)
Обучение с подкреплением (reinforcement learning)

Санкт-Петербург, 2020

Слайд 25

Обычное обучение

 

Санкт-Петербург, 2020

Обычное обучение Санкт-Петербург, 2020

Слайд 26

Классификация машинного обучения: опыт

Transductive learning
Обычное обучение
Активное обучение (active learning)
Обучение с

Классификация машинного обучения: опыт Transductive learning Обычное обучение Активное обучение (active learning)
бюджетом (budget learning)
Интерактивное обучение (online learning)
Многорукие бандиты (multi-armed bandits)
Обучение с подкреплением (reinforcement learning)

Санкт-Петербург, 2020

Слайд 27

Классификация машинного обучения: опыт

Transductive learning
Обычное обучение
Активное обучение (active learning)
Обучение с

Классификация машинного обучения: опыт Transductive learning Обычное обучение Активное обучение (active learning)
бюджетом (budget learning)
Интерактивное обучение (online learning)
Многорукие бандиты (multi-armed bandits)
Обучение с подкреплением (reinforcement learning)

Санкт-Петербург, 2020

Слайд 28

Классификация машинного обучения: опыт

Transductive learning
Обычное обучение
Активное обучение (active learning)
Обучение с

Классификация машинного обучения: опыт Transductive learning Обычное обучение Активное обучение (active learning)
бюджетом (budget learning)
Интерактивное обучение (online learning)
Многорукие бандиты (multi-armed bandits)
Обучение с подкреплением (reinforcement learning)

Санкт-Петербург, 2020

Слайд 29

Классификация машинного обучения
ML можно делить по:
виду целевой функции;
способу получения опыта;
классу решающих

Классификация машинного обучения ML можно делить по: виду целевой функции; способу получения
функций.

Санкт-Петербург, 2020

Слайд 30

Основные классы решающих функций

Instance based learning (kNN)
Линейные решения
Нейронные

Основные классы решающих функций Instance based learning (kNN) Линейные решения Нейронные сети
сети (ANN)
Деревья решений
Параметрические семейства
...
Ансамбли

Санкт-Петербург, 2020

Слайд 31

Основные классы решающих функций

Instance based learning (kNN)
Линейные решения
Нейронные

Основные классы решающих функций Instance based learning (kNN) Линейные решения Нейронные сети
сети (ANN)
Деревья решений
Параметрические семейства
...
Ансамбли

Санкт-Петербург, 2020

Слайд 32

Санкт-Петербург, 2020

Санкт-Петербург, 2020

Слайд 33

Санкт-Петербург, 2020

Санкт-Петербург, 2020

Слайд 34

Итого во введении

Определение
История
Классификация методов

Санкт-Петербург, 2020

Итого во введении Определение История Классификация методов Санкт-Петербург, 2020

Слайд 35

Задача

Давайте попробуем отделить «плохих» студентов от «хороших»

Санкт-Петербург, 2020

Задача Давайте попробуем отделить «плохих» студентов от «хороших» Санкт-Петербург, 2020

Слайд 36

Формальная постановка

Предскажем оценку ближайшей сессии

Санкт-Петербург, 2020

Формальная постановка Предскажем оценку ближайшей сессии Санкт-Петербург, 2020

Слайд 37

План работ

Датасет
Обучение
Анализ результатов

Санкт-Петербург, 2020

План работ Датасет Обучение Анализ результатов Санкт-Петербург, 2020

Слайд 38

План работ

Датасет
Обучение
Анализ результатов

Санкт-Петербург, 2020

План работ Датасет Обучение Анализ результатов Санкт-Петербург, 2020

Слайд 39

Датасет

Готовый
Запросим у ВУЗов
Сделаем сами

Санкт-Петербург, 2020

Датасет Готовый Запросим у ВУЗов Сделаем сами Санкт-Петербург, 2020

Слайд 40

Готовый датасет

+ Минимум усилий
+ Проверен
+ Легко хвастаться результатом
- Применимость
- Нет возможности повлиять

Санкт-Петербург,

Готовый датасет + Минимум усилий + Проверен + Легко хвастаться результатом -
2020

Слайд 41

«Запросим» у ВУЗ-а

+ «Реальные» данные
+ Есть влияние
+ Может примениться
- Возможность повлиять ограничена
-

«Запросим» у ВУЗ-а + «Реальные» данные + Есть влияние + Может примениться
Долго

Санкт-Петербург, 2020

Слайд 42

Сделай сам

+ «Реальные» данные
+ Влияние полное
+ Может примениться
- Не похвастаться результатом
- Не

Сделай сам + «Реальные» данные + Влияние полное + Может примениться -
всегда есть возможность

Санкт-Петербург, 2020

Слайд 43

Наш датасет

Результат опроса
51 человек
23 вопроса
Давность: 2 года*

Санкт-Петербург, 2020

Наш датасет Результат опроса 51 человек 23 вопроса Давность: 2 года* Санкт-Петербург, 2020

Слайд 44

Векторизация

Векторизация: перевод представления о предмете в векторное выражение.
Компоненты полученного в результате

Векторизация Векторизация: перевод представления о предмете в векторное выражение. Компоненты полученного в
векторизации вектора будем называть факторами*
и фичами ☹

Санкт-Петербург, 2020

Слайд 45

Студент -> вектор -> факторы

Пол
Город рождения
Город учёбы в школе
Город учёбы в институте
Рост
Год

Студент -> вектор -> факторы Пол Город рождения Город учёбы в школе
рождения
Месяц рождения
Братья/сестры
Школьный балл
Номер школы
Тип школы
Школьная математика
Олимпиады
Олимпиады по математике
Победы в олимпиадах
Время до вуза
Общежитие ли
Ряд в аудитории
Доля прогулов
Автоматы на экзаменах
Активность в соцсетях
iOS vs Android
Мобильный интернет
Спиннер
Пиво

Санкт-Петербург, 2020

Слайд 46

Студент -> вектор -> факторы

Пол (0,1)
Город рождения (A-AH)
Город учёбы в школе (A-AH)
Город

Студент -> вектор -> факторы Пол (0,1) Город рождения (A-AH) Город учёбы
учёбы в институте (A)
Рост (1-39)
Год рождения (1-25)
Месяц рождения (1-12)
Братья/сестры (0, 1)
Школьный балл (-1-5)
Школа (A-AN)
Тип школы (текст)
Школьная математика (-1- 5)
Олимпиады (0,1)
Олимпиады по математике (0,1)
Победы в олимпиадах (-1-1)
Время до вуза (-1-120)
Общежитие ли (-1-1)
Ряд в аудитории (текст)
Доля прогулов (-1-0.85)
Автоматы на экзаменах (текст)
Активность в соцсетях (аж три числа)
iOS vs Android (три телефона)
Мобильный интернет (текст)
Спиннер (-1-1)
Пиво (-1-4)

Санкт-Петербург, 2020

Слайд 47

Адаптация факторов

С городами беда -> сделаем фактор “понаехали”
Сортирующиеся факторы размапим от балды
В

Адаптация факторов С городами беда -> сделаем фактор “понаехали” Сортирующиеся факторы размапим
рядах возьмём min
В пиве возьмём max
В СШБ возьмём min
Соцсети сложим
Бинаризуем мобильные OS
...

Санкт-Петербург, 2020

Слайд 48

План работ

Датасет
Обучение
Анализ результатов

Санкт-Петербург, 2020

План работ Датасет Обучение Анализ результатов Санкт-Петербург, 2020

Слайд 49

Решающая функция

 

Санкт-Петербург, 2020

Решающая функция Санкт-Петербург, 2020

Слайд 50

Целевая функция

 

Санкт-Петербург, 2020

Целевая функция Санкт-Петербург, 2020

Слайд 51

Решение

 

Санкт-Петербург, 2020

Решение Санкт-Петербург, 2020

Слайд 52

Результат

Санкт-Петербург, 2020

Результат Санкт-Петербург, 2020

Слайд 53

План работ

Датасет
Обучение
Анализ результатов

Санкт-Петербург, 2020

План работ Датасет Обучение Анализ результатов Санкт-Петербург, 2020

Слайд 54

Интерпретация результата

Пол = -1,98 — ну, шовинизм не в моде
Школа 239 =

Интерпретация результата Пол = -1,98 — ну, шовинизм не в моде Школа
-1,29 — обычный расслабон
Спиннер = 1,22 — рулит

Санкт-Петербург, 2020

Слайд 55

Вопросы?

Санкт-Петербург, 2020

Вопросы? Санкт-Петербург, 2020

Слайд 56

Интерпретация результата

Пол = -1,98 — ну, шовинизм не в моде
Школа 239 =

Интерпретация результата Пол = -1,98 — ну, шовинизм не в моде Школа
-1,29 — обычный расслабон
Спиннер = 1,22 — рулит
Это всё фигня!!!

Санкт-Петербург, 2020

Слайд 57

Нормализация факторов

Хотим min = 0, max =1
Или матожидание 0 и дисперсия 1
Или

Нормализация факторов Хотим min = 0, max =1 Или матожидание 0 и
хотим от -1 до 1

Санкт-Петербург, 2020

Слайд 58

Результат II

Санкт-Петербург, 2020

Результат II Санкт-Петербург, 2020

Слайд 59

Интерпретация результата II

Пол = -1,95 — ну, всё ещё не в моде
Школа

Интерпретация результата II Пол = -1,95 — ну, всё ещё не в
239 = -1,27 — обычный расслабон
Спиннер = 1,17 — рулит
Рост и год рождения = >2 — жгут оба

Санкт-Петербург, 2020

Слайд 60

Вопросы?

Санкт-Петербург, 2020

Вопросы? Санкт-Петербург, 2020

Слайд 61

Интерпретация результата II

Пол = -1,95 — ну, всё ещё не в моде
Школа

Интерпретация результата II Пол = -1,95 — ну, всё ещё не в
239 = -1,27 — обычный расслабон
Спиннер = 1,17 — рулит
Рост и год рождения = >2 — жгут оба
Но и это фигня!

Санкт-Петербург, 2020

Слайд 62

Оценка результата

 

Санкт-Петербург, 2020

Оценка результата Санкт-Петербург, 2020

Слайд 63

Результат III

Санкт-Петербург, 2020

Результат III Санкт-Петербург, 2020

Слайд 64

Стабильность решения

Поделим несколько* раз и посмотрим как меняются компоненты решающей функции.
Стабильные

Стабильность решения Поделим несколько* раз и посмотрим как меняются компоненты решающей функции.
компоненты заслуживают веры
Если всё нестабильно, то плохо
Выкидываем лишнее
* несколько это 1 000 или 10 000

Санкт-Петербург, 2020

Слайд 65

Результат IV

Оценка за экзамен = 0.24 x Балл по математике
— 0.31 x Средний школьный балл
+ 0.12

Результат IV Оценка за экзамен = 0.24 x Балл по математике —
x Рост + 4.42

Санкт-Петербург, 2020

Слайд 66

Что ещё можно попробовать:

Другая нормализация
Удаление студентов из обучения
Новые факторы

Что ещё можно попробовать: Другая нормализация Удаление студентов из обучения Новые факторы
Не такой жадный способ фильтрации
Больше данных

Санкт-Петербург, 2020

Слайд 67

Итого в примере:

Всё равно сделали фигню
Посмотрели как исходная задача формулируется

Итого в примере: Всё равно сделали фигню Посмотрели как исходная задача формулируется
в техническую
Разобрали способы сделать датасет
Обучили
Попытались поинтерпретировать

Санкт-Петербург, 2020