Machine learning from scratch: myth or reality

Содержание

Слайд 2

Machine learning from scratch: myth or reality?

Dmitry Kozlov
Kemerovo
January 25, 2018

URL: http://goo.gl/V7mvD1

Machine learning from scratch: myth or reality? Dmitry Kozlov Kemerovo January 25, 2018 URL: http://goo.gl/V7mvD1

Слайд 3

Data is the new Oil We need to find it, extract it, refine

Data is the new Oil We need to find it, extract it,
it, distribute it and monetize it.

Слайд 4

The world’s most valuable resource is no longer oil, but data

The world’s most valuable resource is no longer oil, but data

Слайд 9

Applications of machine learning in real life

Fraud Detection
Customer churn prediction
Credit scoring
Image recognition

Applications of machine learning in real life Fraud Detection Customer churn prediction
system
Recommender system
Anomaly detection

Network analysis
Cluster analysis
Natural Language Processing
Audio, Speech recognition
etc.

Слайд 11

Зачем?

Возможность получить интересную работу и сложные задачи
Развитие интуиции, собственная оценка событий и

Зачем? Возможность получить интересную работу и сложные задачи Развитие интуиции, собственная оценка
фактов
Общие подходы к решениям задач в различных прикладных областях
Применение в реальных практических задачах

Слайд 12

Мотивация, фокус и желание
Английский язык (GitHub, arXiv, YouTube, Coursera, Google, etc.)
Задавать вопросы

Мотивация, фокус и желание Английский язык (GitHub, arXiv, YouTube, Coursera, Google, etc.)
на английском языке в Google
Хотя бы один язык программирования (Python, R, С++, C, Java, Matlab, etc.)
Windows, macOS, Ubuntu
Поддержка сообщества

Что важно для старта?

Слайд 13

Какие бывают данные?

Табличные данные
Временные ряды
Изображения
Видео
Текст
Звук
Другие...

Какие бывают данные? Табличные данные Временные ряды Изображения Видео Текст Звук Другие...

Слайд 14

С чего начать?

С чего начать?

Слайд 15

Начать с практики
Столкнуться с проблемами
Найти решение в теории
Применить решение или вернуться к

Начать с практики Столкнуться с проблемами Найти решение в теории Применить решение
пункту a)
KISS principle “Keep it simple, stupid”
Линейные модели (Linear regression, Logistic Regression, Ridge regression, Lasso, SVM, Naive Bayes, etc.)

С чего начать?

Слайд 16

Что нужно помнить?

Время ограничено, в том числе на обучение
Необходимо декомпозировать сложные задачи
Проще

Что нужно помнить? Время ограничено, в том числе на обучение Необходимо декомпозировать
начать с хорошо изученных областей машинного обучения
Помнить свою цель обучения, выбирая образовательную траекторию

Слайд 17

Какие инструменты?

Искать популярные инструменты на GitHub
Табличные данные (Pandas)
Линейный модели (Scikit-learn)
Градиентный бустинг (LightGBM,

Какие инструменты? Искать популярные инструменты на GitHub Табличные данные (Pandas) Линейный модели
CatBoost, XGBoost)
Нейронные сети (Tensorflow, Keras, PyTorch, Caffe, MXNet)
Оптимизация гиперпараметров (Hyperopt)
Визуализация (Seaborn, Plotly, Bokeh, Matplotlib)

Слайд 18

Какие ресурсы нужны?

Для анализа небольших табличных данных (Pandas, Scikit-learn, XGBoost, LightGBM, etc): Ноутбук

Какие ресурсы нужны? Для анализа небольших табличных данных (Pandas, Scikit-learn, XGBoost, LightGBM,
/ Домашний компьютер c SSD, RAM >= 4-8 GB, CPU >= 2
Для нейронных сетей, анализа текста, изображений и аудио - нужны видеокарты (GPU) от Nvidia

Слайд 19

Какие ресурсы нужны для DL?

Какие ресурсы нужны для DL?

Слайд 20

Какую IDE выбрать?

Jupyter Notebook
PyCharm
Vim
Любую, с которой вы уже знакомы и хорошо ориентируетесь

Какую IDE выбрать? Jupyter Notebook PyCharm Vim Любую, с которой вы уже знакомы и хорошо ориентируетесь

Слайд 21

Постоянно учиться и узнавать новое
Вспоминать лучшие наработки прошлого на практике
Погружаться в детали

Постоянно учиться и узнавать новое Вспоминать лучшие наработки прошлого на практике Погружаться
и научные статьи, если есть необходимость модификации метода или параметров

Что делать потом?

Слайд 22

Что пригодится?

Линейная алгебра
Комбинаторика
Дискретная математика
Теория вероятности
Математический анализ
Методы оптимизации
Дифференциальные уравнения
Структуры данных
Визуализация данных
Теория графов, алгоритмы

Что пригодится? Линейная алгебра Комбинаторика Дискретная математика Теория вероятности Математический анализ Методы
на графах

Слайд 24

Open Data Science

Крупнейшее русскоязычное Data Science сообщество, существует с 2015 года
Количество участников

Open Data Science Крупнейшее русскоязычное Data Science сообщество, существует с 2015 года
на данный момент: 10014
https://youtu.be/yPKu2vE4UqM?t=2h45m55s
Регистрация: http://ods.ai
Блог на хабре: https://habrahabr.ru/company/ods/

Слайд 25

Что нужно знать про ODS?

История сообщений с 2015 года! (Поиск по ключевым

Что нужно знать про ODS? История сообщений с 2015 года! (Поиск по
словам, каналам и авторам в Slack)
Встречи, конференции, Data Science завтраки, тренировки, соревнования, вакансии, (#meetings, #kaggle_crackers, #deep_learning, #nlp, #proj_*,etc.)
Есть каналы и информация по всем темам так или иначе связанным с машинным обучением и анализом данных

Слайд 26

Что нужно знать про ODS?

Обязательно стоит задавать вопросы в соответствующих тематических каналах

Что нужно знать про ODS? Обязательно стоит задавать вопросы в соответствующих тематических
(правильный вопрос - это больше половины ответа)
Будьте осторожны, ODS затягивает

Слайд 27

Что нужно знать про ODS?

Ежегодный http://datafest.ru/
Большое количество специалистов из лучших IT-компаний России

Что нужно знать про ODS? Ежегодный http://datafest.ru/ Большое количество специалистов из лучших
всегда готовы ответить на Ваши вопросы и бесплатно
Несколько запусков бесплатного массового курса по машинному обучению ML Course ODS (участники сообщества делятся опытом с начинающими)

Слайд 28

Что нужно знать про ODS?

Канал #welcome и #career - здесь вы можете

Что нужно знать про ODS? Канал #welcome и #career - здесь вы
узнать биографию и карьеру многих участников ODS
#edu_books, #edu_coursees
Тренировки по машинному обучению #mltrainings_beginners

Слайд 29

#_meetings_siberia in ODS

Сибирская ячейка ODS, каналы: #_meetings_siberia, #_meetings_tomsk (Новосибирск (ЦФТ, 2ГИС, etc),

#_meetings_siberia in ODS Сибирская ячейка ODS, каналы: #_meetings_siberia, #_meetings_tomsk (Новосибирск (ЦФТ, 2ГИС,
Томск, Барнаул давно и активно встречаются, устраивают совместные завтраки, митапы и конференции)
Календарь в Новосибирске https://goo.gl/RrSAa4
Meetup ODSS CFT 16.12.17

Слайд 30

#_meetings_siberia in ODS

#_meetings_siberia in ODS

Слайд 31

Тренировки по машинному обучению в Yandex

Анонс новых тренировок: https://events.yandex.ru/events/mltr
Видео с прошедших тренировок:

Тренировки по машинному обучению в Yandex Анонс новых тренировок: https://events.yandex.ru/events/mltr Видео с
https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w)
Календарь соревнований: http://mltrainings.ru/

Слайд 32

Платформа для соревнований по машинному обучению мирового уровня с обсуждением задач и

Платформа для соревнований по машинному обучению мирового уровня с обсуждением задач и общим рейтингом участников
общим рейтингом участников

Слайд 33

а решать ?

Решать вместе
Быстрые проверки гипотез, больше экспериментов
Фокус на целевой метрике
Учиться на

а решать ? Решать вместе Быстрые проверки гипотез, больше экспериментов Фокус на
сложных примерах
Расширять кругозор
Автоматизировать повторяющиеся операции
Собирать коллекцию трюков

Слайд 34

Полезные ссылки

Тренировки по машинному обучению
Видео с тренировок по машинному обучению
https://www.coursera.org/learn/competitive-data-science

Полезные ссылки Тренировки по машинному обучению Видео с тренировок по машинному обучению https://www.coursera.org/learn/competitive-data-science

Слайд 35

Полезные ссылки

Machine Learning https://www.coursera.org/specializations/aml
Reinforcement learning (#reinfocement_learnin ODS): https://www.youtube.com/watch?v=PtAIh9KSnjo https://www.coursera.org/learn/practical-rl https://www.edx.org/course/reinforcement-learning-explained-microsoft-dat257x http://rll.berkeley.edu/deeprlcourse/ https://www.youtube.com/watch?v=2pWv7GOvuf0

Полезные ссылки Machine Learning https://www.coursera.org/specializations/aml Reinforcement learning (#reinfocement_learnin ODS): https://www.youtube.com/watch?v=PtAIh9KSnjo https://www.coursera.org/learn/practical-rl https://www.edx.org/course/reinforcement-learning-explained-microsoft-dat257x http://rll.berkeley.edu/deeprlcourse/ https://www.youtube.com/watch?v=2pWv7GOvuf0

Слайд 36

Полезные ссылки

Natural Language Processing (#nlp in ODS): http://web.stanford.edu/class/cs224n/ https://www.youtube.com/watch?v=OQQ-W_63UgQ https://www.coursera.org/learn/language-processing http://deephack.me/
Self-driving cars (#self_driving in ODS): https://www.udacity.com/courses/self-driving-car https://selfdrivingcars.mit.edu/

Полезные ссылки Natural Language Processing (#nlp in ODS): http://web.stanford.edu/class/cs224n/ https://www.youtube.com/watch?v=OQQ-W_63UgQ https://www.coursera.org/learn/language-processing http://deephack.me/

Слайд 37

Полезные ссылки

Deep Learning (#deep_learning in ODS): http://vision.stanford.edu/teaching/cs231n/ https://www.coursera.org/specializations/deep-learning https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk https://www.youtube.com/watch?v=Am82yvUSwRE http://vision.stanford.edu/teaching/cs131_fall1718/ https://www.youtube.com/watch?v=p5SjqD7Ut4Y&list=PLbwKcm5vdiSYL_yEwQ6JIICBA4dMtHNxo

Полезные ссылки Deep Learning (#deep_learning in ODS): http://vision.stanford.edu/teaching/cs231n/ https://www.coursera.org/specializations/deep-learning https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk https://www.youtube.com/watch?v=Am82yvUSwRE http://vision.stanford.edu/teaching/cs131_fall1718/ https://www.youtube.com/watch?v=p5SjqD7Ut4Y&list=PLbwKcm5vdiSYL_yEwQ6JIICBA4dMtHNxo

Слайд 38

Полезные ссылки

Big Data (#big_data in ODS) http://mattturck.com/wp-content/uploads/2017/05/Matt-Turck-FirstMark-2017-Big-Data-Landscape.png https://www.coursera.org/learn/big-data-essentials https://www.coursera.org/courses?languages=en&query=Yandex

Полезные ссылки Big Data (#big_data in ODS) http://mattturck.com/wp-content/uploads/2017/05/Matt-Turck-FirstMark-2017-Big-Data-Landscape.png https://www.coursera.org/learn/big-data-essentials https://www.coursera.org/courses?languages=en&query=Yandex

Слайд 39

Полезные ссылки

Разбор лучших решений Kaggle: http://ndres.me/kaggle-past-solutions/ https://www.kaggle.com/wiki/PastSolutions http://www.chioka.in/kaggle-competition-solutions/
Блог Александра Дьяконова
Беседы с гуру Data Science
https://github.com/rushter/data-science-blogs

Полезные ссылки Разбор лучших решений Kaggle: http://ndres.me/kaggle-past-solutions/ https://www.kaggle.com/wiki/PastSolutions http://www.chioka.in/kaggle-competition-solutions/ Блог Александра Дьяконова

Слайд 40

Полезные ссылки

Крупнейшие научные конференции: NIPS, ICML, CVPR, ICCV, KDD
Видео: NIPS, ICML, CVPR+ICCV,

Полезные ссылки Крупнейшие научные конференции: NIPS, ICML, CVPR, ICCV, KDD Видео: NIPS, ICML, CVPR+ICCV, KDD
KDD

Слайд 41

Школы анализа данных: Yandex, Mail.ru

https://yandexdataschool.ru/
https://sphere.mail.ru

Школы анализа данных: Yandex, Mail.ru https://yandexdataschool.ru/ https://sphere.mail.ru
Имя файла: Machine-learning-from-scratch:-myth-or-reality.pptx
Количество просмотров: 134
Количество скачиваний: 0