Содержание
- 2. Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Результат Случайный лес
- 3. Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Результат Давайте решим
- 4. Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Результат Случайный лес
- 5. Что произошло? Мы что-то где-то упустили. Результат Случайный лес Случайный лес DM Labs Что пошло не
- 6. Что произошло? Мы поставили гипотезу: применим RF влоб, вдруг сработает. Результат Случайный лес Случайный лес DM
- 7. Модель. Что если мы ошиблись с RF/SVM? Тоесть, все заработало, но результат был плох? Результат Модель
- 8. Модель. Что если мы ошиблись с RF/SVM? Мы же не накосячили с тренировочным, валидационным и тестовым
- 9. Модель. Результат Модель Есть: Обученная модель Результат ее работы на валидационном(тестовом) множестве (ошибка) Случайный лес Случайный
- 10. Модель. Результат Модель Есть: Обученная модель Результат ее работы на валидационном(тестовом) множестве (ошибка) Хотим: Улучшить (обобщающую)
- 11. Модель. Результат Модель Хотим: Улучшить (обобщающую) точность Чем можем управлять: Гиперпараметры Лучший их выбор (CV, boot)
- 12. Модель. Результат Модель Сложность* Регуляризация Гиперпараметры Выбор гиперпараметров тратит много машинного времени. GBM: #base-learners, lambda, RI,
- 13. Модель. Результат Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Случайный лес Случайный лес DM
- 14. Модель. Результат Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Big Data Machine Learning Случайный
- 15. Модель. Результат Оно вообще не посчиталось. Иногда – феерично. Big Data Machine Learning Случайный лес Случайный
- 16. Обработка данных. Тесно связана с моделью. Результат Обработка данных Случайный лес Случайный лес DM Labs Обработка
- 17. Обработка данных. Результат Обработка данных Хотим: Заставить что-то работать ☹ Уменьшить количество переменных\данных Увеличить скорость вычисления\обучения
- 18. Обработка данных. Результат Обработка данных Хотим: Заставить что-то работать ☹ Уменьшить количество переменных\данных Увеличить скорость вычисления\обучения
- 19. Обработка данных. В подвыборки можно вкладывать смысл: 5% юзеров, записей, уникальных юзеров, последних записей... Feature learning
- 20. Обработка данных. Что-то еще? Результат Обработка Выбросы Подвыборка Feature Learning Случайный лес Случайный лес DM Labs
- 21. Обработка данных. Что если все еще не взлетает. Результат Обработка Выбросы Подвыборка Feature Learning Случайный лес
- 22. Гипотеза о задаче. Самое сложное. Понять что вообще происходит. Неправильные фичи могут ни к чему не
- 23. Гипотеза о задаче. Результат Гипотезы о задаче Feature engineering Есть: Мы перепробовали кучу моделей и кучу
- 24. Гипотеза о задаче. Результат Гипотезы о задаче Feature engineering Пример: Изображения: сверточные признаки, Haar-признаки Временные ряды:
- 25. Kaggle. Как организовать команду? Результат Гипотезы о задаче Feature engineering Случайный лес Случайный лес DM Labs
- 26. Kaggle. Как организовать команду? Результат Гипотезы о задаче Feature engineering Случайный лес Случайный лес DM Labs
- 27. Kaggle. Техник: 1, 5 данные должны быть всегда доступны, сабмит всегда делался Шпион: 2, 3, идеи
- 28. Kaggle. Техник: 1, 5 … Шпион: 2, 3, идеи про 4 … Спецназ: 3, 4 …
- 29. Как вообще решаются задачи. Где здесь результаты сообществ? Machine Learning Data Mining Специфичных областей (видео, биология,
- 30. Как вообще решаются задачи. Где здесь результаты сообществ? Machine Learning Data Mining Специфичных областей (видео, биология,
- 31. Summary ... DM Labs Summary
- 33. Скачать презентацию