Слайд 3Машинное обучение - это
Машинное обучение — класс математических методов, характерной чертой которых
![Машинное обучение - это Машинное обучение — класс математических методов, характерной чертой](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-2.jpg)
является не прямое решение задачи, а обучение в процессе решения множества сходных задач.
Или другими словами восстановление зависимостей по данным.
Только зависимости могут быть многомерными и очень сложными, а данные могут быть разнородными, неточными, неполными и даже противоречивыми.
Слайд 4Основная задача машинного обучения
Этап №1 – обучение с учителем
На входе: данные –
![Основная задача машинного обучения Этап №1 – обучение с учителем На входе:](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-3.jpg)
выборка прецедентов «объект -> ответ»
На выходе: алгоритм, по любому объекту предсказывающий ответ
Этап №2 – применение
На входе: данные – выборка новых объектов
На выходе: предсказания алгоритма на новых объектах
Слайд 5Примеры задач машинного обучения
Кредитный скоринг
Предсказание оттока клиентов
Прогнозирование объемов продаж
Рекомендательные системы
Управление технологическими процессами
Медицинская
![Примеры задач машинного обучения Кредитный скоринг Предсказание оттока клиентов Прогнозирование объемов продаж](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-4.jpg)
диагностика
Перевод текста
Компьютерное зрение
Слайд 6Поиск свободного места на парковке
![Поиск свободного места на парковке](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-5.jpg)
Слайд 7Детекция грузового транспорта
![Детекция грузового транспорта](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-6.jpg)
Слайд 8Предсказание оттока абонентов
![Предсказание оттока абонентов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-7.jpg)
Слайд 9О задаче
Отток - абонент который в течение 3 месяцев не платит за
![О задаче Отток - абонент который в течение 3 месяцев не платит](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-8.jpg)
услугу интернет
Данные:
счета и платежи— вся информация, связанная с финансами
использование услуг — информация о трафике, продолжительность использования, ...
подключенные услуги — какие, когда, как долго
остальное— география, коммуникации с контакт-центром, ...
Слайд 10Цикл работы
Этапы:
Понимание бизнеса(формулирование цели и задач)
Работа с данными
Моделирование
Внедрение
Мониторинг
Основной цикл работы -
![Цикл работы Этапы: Понимание бизнеса(формулирование цели и задач) Работа с данными Моделирование](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-9.jpg)
CRISP-DM.
Слайд 11Заведите глоссарий
Зафиксируйте ключевые понятия и решаемую задачу.
Дополните рисунками если необходимо.
Пусть каждый
![Заведите глоссарий Зафиксируйте ключевые понятия и решаемую задачу. Дополните рисунками если необходимо. Пусть каждый прочитает, перескажет.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-10.jpg)
прочитает, перескажет.
Слайд 12Этапы работы с данными
Этапы работы с данными:
Выборка данных: что, откуда, есть ли
![Этапы работы с данными Этапы работы с данными: Выборка данных: что, откуда,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-11.jpg)
исторические данные, соотнесение с объектами
Очистка: устраняем ошибки, заполняем пропуски
Преобразование: сгруппировать помесячно
Слайд 13Работа с данными это 80% времени
С данными обязательно что-то не так!
Ошибки ввода
Пропуски
Аномалии
Дубли
![Работа с данными это 80% времени С данными обязательно что-то не так!](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-12.jpg)
Слайд 14Понимание данных
Узнайте у экспертов максимально о предметной области и о решаемой задаче.
![Понимание данных Узнайте у экспертов максимально о предметной области и о решаемой](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-13.jpg)
Задавайте вопросы:
Как задача решается сейчас?
Какие факторы влияют?
Какие значения может принимать признак?
Как меняется динамика от месяца к месяцу?
Какие были изменения в процессах и как это изменилось на данных?
Слайд 15Гипотезы
Гипотеза – это предположение, о зависимости целевой переменной и какого-то фактора.
Гипотеза
![Гипотезы Гипотеза – это предположение, о зависимости целевой переменной и какого-то фактора.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-14.jpg)
должна быть проверяемой и измеримой.
Сформулировали -> Провели эксперимент -> Оценили
-> Отвергли/приняли
Слайд 16Больше гипотез!
Придумывайте как можно больше идей(гипотез) и проверяйте их.
80% гипотез будут
![Больше гипотез! Придумывайте как можно больше идей(гипотез) и проверяйте их. 80% гипотез](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-15.jpg)
отвергнуты или не принесут практического результата!
Записывайте гипотезы в реестр.
Тюнинг моделей - даст прирост в 3-10%.
Качественное улучшение можно получить за счет “новых” признаков.
Слайд 17Моделирование
Решайте задачу итеративно.
Сделайте прототип
Проверьте его
Улучшите или начните заново
Интерпретируйте модель.
Начинайте с более
![Моделирование Решайте задачу итеративно. Сделайте прототип Проверьте его Улучшите или начните заново](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-16.jpg)
простых моделей.
Каждый полученный результат интерпретируйте:
Что он значит?
Какая практическая польза?
Помогает ли это достигнуть цели?
Слайд 20Достижения
Беспилотный автомобиль DARPA (2005)
Apple Siri, голосовой помощник (2011)
WATSON выиграл в “Jeopardy” (2014)
ImageNet,
![Достижения Беспилотный автомобиль DARPA (2005) Apple Siri, голосовой помощник (2011) WATSON выиграл](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-19.jpg)
аннотирование изображений с точностью выше чем у людей (2014)
DeepMind. OpenAI: обучение компьютера играм Atari (2016)
Microsoft, распознавание голоса компьютером превысило человеческий уровень (2016)
Google DeepMind обыграл чемпиона по игре в го (2016)
Слайд 21Технологии, меняющие жизни людей
Накопление больших объемов данных
Удешевление и миниатюризация вычислительных ресурсов, датчиков,
![Технологии, меняющие жизни людей Накопление больших объемов данных Удешевление и миниатюризация вычислительных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-20.jpg)
аккумуляторов
Удешевление робототехники
Успехи в развитии методов машинного обучения
За счет этих факторов происходит стремительная автоматизации труда.
Слайд 22Тренды
Распространение умных вещей
Беспилотный транспорт
Улучшение качества сервисов и услуг за счет персонализации
Интеллектуализация машинного
![Тренды Распространение умных вещей Беспилотный транспорт Улучшение качества сервисов и услуг за](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-21.jpg)
труда:
профессии где решения принимаются на основании типовых факторов будут заменяться машинами
Слайд 23C чего начать
«Введение в машинное обучение» на Coursera
Специализация «Машинное обучение и анализ
![C чего начать «Введение в машинное обучение» на Coursera Специализация «Машинное обучение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/924608/slide-22.jpg)
данных» на Coursera
Сообщество OpenDataScience в Slack