Магия и боль ML. Машинное обучение

Содержание

Слайд 2

Магия и боль ML

Магия и боль ML

Слайд 3

Машинное обучение - это

Машинное обучение — класс математических методов, характерной чертой которых

Машинное обучение - это Машинное обучение — класс математических методов, характерной чертой
является не прямое решение задачи, а обучение в процессе решения множества сходных задач.
Или другими словами восстановление зависимостей по данным.
Только зависимости могут быть многомерными и очень сложными, а данные могут быть разнородными, неточными, неполными и даже противоречивыми.

Слайд 4

Основная задача машинного обучения

Этап №1 – обучение с учителем
На входе: данные –

Основная задача машинного обучения Этап №1 – обучение с учителем На входе:
выборка прецедентов «объект -> ответ»
На выходе: алгоритм, по любому объекту предсказывающий ответ
Этап №2 – применение
На входе: данные – выборка новых объектов
На выходе: предсказания алгоритма на новых объектах

Слайд 5

Примеры задач машинного обучения
Кредитный скоринг
Предсказание оттока клиентов
Прогнозирование объемов продаж
Рекомендательные системы
Управление технологическими процессами
Медицинская

Примеры задач машинного обучения Кредитный скоринг Предсказание оттока клиентов Прогнозирование объемов продаж
диагностика
Перевод текста
Компьютерное зрение

Слайд 6

Поиск свободного места на парковке

Поиск свободного места на парковке

Слайд 7

Детекция грузового транспорта

Детекция грузового транспорта

Слайд 8

Предсказание оттока абонентов

Предсказание оттока абонентов

Слайд 9

О задаче
Отток - абонент который в течение 3 месяцев не платит за

О задаче Отток - абонент который в течение 3 месяцев не платит
услугу интернет
Данные:
счета и платежи— вся информация, связанная с финансами
использование услуг — информация о трафике, продолжительность использования, ...
подключенные услуги — какие, когда, как долго
остальное— география, коммуникации с контакт-центром, ...

Слайд 10

Цикл работы

Этапы:
Понимание бизнеса(формулирование цели и задач)
Работа с данными
Моделирование
Внедрение
Мониторинг
Основной цикл работы -

Цикл работы Этапы: Понимание бизнеса(формулирование цели и задач) Работа с данными Моделирование
CRISP-DM.

Слайд 11

Заведите глоссарий

Зафиксируйте ключевые понятия и решаемую задачу.
Дополните рисунками если необходимо.
Пусть каждый

Заведите глоссарий Зафиксируйте ключевые понятия и решаемую задачу. Дополните рисунками если необходимо. Пусть каждый прочитает, перескажет.
прочитает, перескажет.

Слайд 12

Этапы работы с данными

Этапы работы с данными:
Выборка данных: что, откуда, есть ли

Этапы работы с данными Этапы работы с данными: Выборка данных: что, откуда,
исторические данные, соотнесение с объектами
Очистка: устраняем ошибки, заполняем пропуски
Преобразование: сгруппировать помесячно

Слайд 13

Работа с данными это 80% времени

С данными обязательно что-то не так!
Ошибки ввода
Пропуски
Аномалии
Дубли

Работа с данными это 80% времени С данными обязательно что-то не так!

Слайд 14

Понимание данных

Узнайте у экспертов максимально о предметной области и о решаемой задаче.

Понимание данных Узнайте у экспертов максимально о предметной области и о решаемой

Задавайте вопросы:
Как задача решается сейчас?
Какие факторы влияют?
Какие значения может принимать признак?
Как меняется динамика от месяца к месяцу?
Какие были изменения в процессах и как это изменилось на данных?

Слайд 15

Гипотезы

Гипотеза – это предположение, о зависимости целевой переменной и какого-то фактора.
Гипотеза

Гипотезы Гипотеза – это предположение, о зависимости целевой переменной и какого-то фактора.
должна быть проверяемой и измеримой.
Сформулировали -> Провели эксперимент -> Оценили
-> Отвергли/приняли

Слайд 16

Больше гипотез!

Придумывайте как можно больше идей(гипотез) и проверяйте их.
80% гипотез будут

Больше гипотез! Придумывайте как можно больше идей(гипотез) и проверяйте их. 80% гипотез
отвергнуты или не принесут практического результата!
Записывайте гипотезы в реестр.
Тюнинг моделей - даст прирост в 3-10%.
Качественное улучшение можно получить за счет “новых” признаков.

Слайд 17

Моделирование

Решайте задачу итеративно.
Сделайте прототип
Проверьте его
Улучшите или начните заново
Интерпретируйте модель. Начинайте с более

Моделирование Решайте задачу итеративно. Сделайте прототип Проверьте его Улучшите или начните заново
простых моделей.
Каждый полученный результат интерпретируйте:
Что он значит?
Какая практическая польза?
Помогает ли это достигнуть цели?

Слайд 18

Технологии которые используем

Технологии которые используем

Слайд 19

Заключение

Заключение

Слайд 20

Достижения

Беспилотный автомобиль DARPA (2005)
Apple Siri, голосовой помощник (2011)
WATSON выиграл в “Jeopardy” (2014)
ImageNet,

Достижения Беспилотный автомобиль DARPA (2005) Apple Siri, голосовой помощник (2011) WATSON выиграл
аннотирование изображений с точностью выше чем у людей (2014)
DeepMind. OpenAI: обучение компьютера играм Atari (2016)
Microsoft, распознавание голоса компьютером превысило человеческий уровень (2016)
Google DeepMind обыграл чемпиона по игре в го (2016)

Слайд 21

Технологии, меняющие жизни людей

Накопление больших объемов данных
Удешевление и миниатюризация вычислительных ресурсов, датчиков,

Технологии, меняющие жизни людей Накопление больших объемов данных Удешевление и миниатюризация вычислительных
аккумуляторов
Удешевление робототехники
Успехи в развитии методов машинного обучения
За счет этих факторов происходит стремительная автоматизации труда.

Слайд 22

Тренды

Распространение умных вещей
Беспилотный транспорт
Улучшение качества сервисов и услуг за счет персонализации
Интеллектуализация машинного

Тренды Распространение умных вещей Беспилотный транспорт Улучшение качества сервисов и услуг за
труда: профессии где решения принимаются на основании типовых факторов будут заменяться машинами

Слайд 23

C чего начать

«Введение в машинное обучение» на Coursera
Специализация «Машинное обучение и анализ

C чего начать «Введение в машинное обучение» на Coursera Специализация «Машинное обучение
данных» на Coursera
Сообщество OpenDataScience в Slack