Слайд 3Машинное обучение - это
Машинное обучение — класс математических методов, характерной чертой которых
является не прямое решение задачи, а обучение в процессе решения множества сходных задач.
Или другими словами восстановление зависимостей по данным.
Только зависимости могут быть многомерными и очень сложными, а данные могут быть разнородными, неточными, неполными и даже противоречивыми.
Слайд 4Основная задача машинного обучения
Этап №1 – обучение с учителем
На входе: данные –
выборка прецедентов «объект -> ответ»
На выходе: алгоритм, по любому объекту предсказывающий ответ
Этап №2 – применение
На входе: данные – выборка новых объектов
На выходе: предсказания алгоритма на новых объектах
Слайд 5Примеры задач машинного обучения
Кредитный скоринг
Предсказание оттока клиентов
Прогнозирование объемов продаж
Рекомендательные системы
Управление технологическими процессами
Медицинская
диагностика
Перевод текста
Компьютерное зрение
Слайд 6Поиск свободного места на парковке
Слайд 7Детекция грузового транспорта
Слайд 8Предсказание оттока абонентов
Слайд 9О задаче
Отток - абонент который в течение 3 месяцев не платит за
услугу интернет
Данные:
счета и платежи— вся информация, связанная с финансами
использование услуг — информация о трафике, продолжительность использования, ...
подключенные услуги — какие, когда, как долго
остальное— география, коммуникации с контакт-центром, ...
Слайд 10Цикл работы
Этапы:
Понимание бизнеса(формулирование цели и задач)
Работа с данными
Моделирование
Внедрение
Мониторинг
Основной цикл работы -
CRISP-DM.
Слайд 11Заведите глоссарий
Зафиксируйте ключевые понятия и решаемую задачу.
Дополните рисунками если необходимо.
Пусть каждый
прочитает, перескажет.
Слайд 12Этапы работы с данными
Этапы работы с данными:
Выборка данных: что, откуда, есть ли
исторические данные, соотнесение с объектами
Очистка: устраняем ошибки, заполняем пропуски
Преобразование: сгруппировать помесячно
Слайд 13Работа с данными это 80% времени
С данными обязательно что-то не так!
Ошибки ввода
Пропуски
Аномалии
Дубли
Слайд 14Понимание данных
Узнайте у экспертов максимально о предметной области и о решаемой задаче.
Задавайте вопросы:
Как задача решается сейчас?
Какие факторы влияют?
Какие значения может принимать признак?
Как меняется динамика от месяца к месяцу?
Какие были изменения в процессах и как это изменилось на данных?
Слайд 15Гипотезы
Гипотеза – это предположение, о зависимости целевой переменной и какого-то фактора.
Гипотеза
должна быть проверяемой и измеримой.
Сформулировали -> Провели эксперимент -> Оценили
-> Отвергли/приняли
Слайд 16Больше гипотез!
Придумывайте как можно больше идей(гипотез) и проверяйте их.
80% гипотез будут
отвергнуты или не принесут практического результата!
Записывайте гипотезы в реестр.
Тюнинг моделей - даст прирост в 3-10%.
Качественное улучшение можно получить за счет “новых” признаков.
Слайд 17Моделирование
Решайте задачу итеративно.
Сделайте прототип
Проверьте его
Улучшите или начните заново
Интерпретируйте модель.
Начинайте с более
простых моделей.
Каждый полученный результат интерпретируйте:
Что он значит?
Какая практическая польза?
Помогает ли это достигнуть цели?
Слайд 20Достижения
Беспилотный автомобиль DARPA (2005)
Apple Siri, голосовой помощник (2011)
WATSON выиграл в “Jeopardy” (2014)
ImageNet,
аннотирование изображений с точностью выше чем у людей (2014)
DeepMind. OpenAI: обучение компьютера играм Atari (2016)
Microsoft, распознавание голоса компьютером превысило человеческий уровень (2016)
Google DeepMind обыграл чемпиона по игре в го (2016)
Слайд 21Технологии, меняющие жизни людей
Накопление больших объемов данных
Удешевление и миниатюризация вычислительных ресурсов, датчиков,
аккумуляторов
Удешевление робототехники
Успехи в развитии методов машинного обучения
За счет этих факторов происходит стремительная автоматизации труда.
Слайд 22Тренды
Распространение умных вещей
Беспилотный транспорт
Улучшение качества сервисов и услуг за счет персонализации
Интеллектуализация машинного
труда:
профессии где решения принимаются на основании типовых факторов будут заменяться машинами
Слайд 23C чего начать
«Введение в машинное обучение» на Coursera
Специализация «Машинное обучение и анализ
данных» на Coursera
Сообщество OpenDataScience в Slack