Слайд 4Говорят, что компьютерная программа обучается на основе опыта E по отношению к
некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E.
Слайд 5Области применения ML
Распознавание речи.
Компьютерное зрение.
Компьютерная лингвистика и обработка естественных языков.
Медицинская диагностика.
Техническая диагностика.
Рубрикация
текстов.
Интеллектуальные игры.
Слайд 6Главные вопросы ML
Какое количество и какой информации необходимо для обучения?
Какие данные лучше
выбирать для обучения и почему?
Какой алгоритм решает поставленную задачу наилучшим образом?
Как свести какую-либо задач обучения к аппроксимации или оптимизации некоторой функции?
Слайд 7Основные понятия
Признак (feature)
Объект (object)
Чистые данные (tidy data)
Набор данных (dataset)
Модель
Шкала
Слайд 8Определение чистых данных (tidy data)
Каждая переменная соответствует колонке
Каждое измерение соответствует строке
Каждая таблица\файл
содержит данные об одном виде наблюдений\экспериментов
Слайд 9Обзор данных (data exploration)
Отсутствующие данные
Значения вне разумного диапазона
Ошибки в единицах измерения (шкалах)
Ошибки
в подписях переменных (колонок)
Ошибки в классах переменных
Слайд 10Предварительная обработка данных
Создание новых переменных
Слияние наборов данных
Трансформация переменных
Удаление несогласованных данных
Слайд 11Этапы анализа данных
Определить вопрос
Определение идеального набора данных
Определение доступного набора данных
Получение данных
Очистка данных
Исследовательский
анализ данных
Статистическое моделирование
Интерпретация результатов
Проверка результатов
Описание результатов
Создание воспроизводимого кода
Слайд 12Этапы процесса машинного обучения
Получение данных
Трансформация данных
Очистка данных
Визуализация данных
EDA
Выбор модели
Обучение модели
Верификация результата
Слайд 13Основные типы шкал
Бинарные (Пол, наличие боли в спине, в сознании ли пациент).
Номинальные
(Тип боли: колющая, режущая, ноющая).
Порядковые (Общее состояние больного: удовлетворительное, средней тяжести, тяжелое, крайне тяжелое).
Количественные (Температура тела, пульс, артериальное давление).
Слайд 14Основные форматы хранения наборов данных
CSV
XML
JSON
XLSX
DB
Слайд 15Главные задачи машинного обучения
Обучение с учителем (supervised learning)
Регрессия
Классификация
Обучение без учителя (unsupervised learning)
Понижение
размерности
Обнаружение аномалий
Кластеризация
Рекомендательные системы
Обучение с подкреплением (reinforecement learning)
Основой машинного обучения является оптимизация некоторой функции ошибки