Слайд 2Виды обучения
Обучение с учителем (supervised learning) – есть размеченные данные (для каждого
![Виды обучения Обучение с учителем (supervised learning) – есть размеченные данные (для](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-1.jpg)
примера есть «решение или метка класса»)
С частичным привлечением учителя (semi-supervised learning) – для части прецедентов задается пара «ситуация, решение», а для части - только «ситуация»
Обучение без учителя (unsupervised learning) – есть неразмеченные данные («ситуация»), требуется сгруппировать объекты
Слайд 3Виды обучения
Обучение с подкреплением (reinforcement learning) – есть размечаемые данные («ситуация, предполагаемое
![Виды обучения Обучение с подкреплением (reinforcement learning) – есть размечаемые данные («ситуация,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-2.jpg)
решение»). Алгоритм обучения работает через вознаграждение за правильное решение или наказание за неправильное.
Слайд 5Признаки
Исходные
Производные
Агрегированные – показатели, определенные по группе (сумма, среднее, минимум, максимум)
Индикаторы – наличие
![Признаки Исходные Производные Агрегированные – показатели, определенные по группе (сумма, среднее, минимум,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-4.jpg)
или отсутствие характеристики
Отношения – взаимосвязь между двумя или более значениями данных
Отображения – преобразование непрерывных в категориальные
Слайд 6Извлечение признаков
Тексты – это токенизация
Изображения – извлечение краев и цветовые пятна
Дата и
![Извлечение признаков Тексты – это токенизация Изображения – извлечение краев и цветовые](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-5.jpg)
время – полезно вычленить выходные и праздники, дни недели
Местоположение (адрес или координаты) - извлечь плотность, средний доход по району
Номер телефона – регион и оператор связи
Лаги по времени. Окно 3-7 последовательностей
Слайд 7Ошибка обобщения
Ошибка обобщения – сумма смещения, дисперсии и величины, называемой неустранимой погрешностью,
![Ошибка обобщения Ошибка обобщения – сумма смещения, дисперсии и величины, называемой неустранимой](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-6.jpg)
которая является результатом шума в самой задаче.
Слайд 8Сложность
количество настраиваемых параметров архитектуры модели, другими словами, сложность модели определяет ее информационную
![Сложность количество настраиваемых параметров архитектуры модели, другими словами, сложность модели определяет ее](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-7.jpg)
емкость. При увеличении сложности модели происходит уменьшение смещения и увеличение разброса.
Слайд 9Недообучение
Недообучение (underfitting) – когда модель, построенная с помощью алгоритма, является слишком упрощенной,
![Недообучение Недообучение (underfitting) – когда модель, построенная с помощью алгоритма, является слишком](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-8.jpg)
чтобы представлять базовую взаимосвязь между признаками и классом в обучающей выборке.
Это явление можно заметить по большой ошибке на обучающей выборке (еще говорят, что «не удаётся настроиться на выборку»). Помимо простоты модели, недообучение может возникать еще и из-за малого количества эпох обучения.
Слайд 10Переобучение
Переобучение (overfitting) – когда модель, построенная с помощью алгоритма, настолько сложна, что
![Переобучение Переобучение (overfitting) – когда модель, построенная с помощью алгоритма, настолько сложна,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-9.jpg)
модель слишком точно приближает обучающую выборку и становится чувствительной к шуму.
Это явление можно заметить по увеличивающейся разнице между ошибкой на обучающей выборке и тестовой выборке с каждой эпохой обучения. Поэтому при обучении строится график изменения ошибки на обучающей и тестовой выборках. Переобученная модель обладает низкой обобщающей способностью, в эксплуатации она будет часто ошибаться.
Слайд 11Нейросети по характеру связей
Прямого распространения
Обратного распространения, или рекуррентные
Радиально-базисные функции
Самоорганизующиеся
![Нейросети по характеру связей Прямого распространения Обратного распространения, или рекуррентные Радиально-базисные функции Самоорганизующиеся](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-10.jpg)
Слайд 12Кросс-валидация (скользящий контроль)
Метод отложенных данных (holdout method) – разделение 70-30 или 60-40
![Кросс-валидация (скользящий контроль) Метод отложенных данных (holdout method) – разделение 70-30 или](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-11.jpg)
или 80-20.
Оценка ошибки близка к ошибке модели на новых данных, но сильно зашумлена.
Для борьбы с шумом многократно случайно разделяют обучающую и тестовую выборку, параметр ошибки при этом усредняют.
Но в процессе итераций каждая точка данных будет попадать в тестовое подмножество различное число раз, что может привести к смещению оценки.
Слайд 13Кросс-валидация (скользящий контроль)
Контроль по k-блокам (k-fold cross-validation) - данные случайным образом делятся
![Кросс-валидация (скользящий контроль) Контроль по k-блокам (k-fold cross-validation) - данные случайным образом](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-12.jpg)
на k непересекающихся подмножеств (5, 10 или 20). После циклического перебора всех k подмножеств полученная оценка усредняется.
Слайд 17ROC-кривая
Вектора вероятностей классов, порог позволяет разделить классы, кривая строится для разных значений
![ROC-кривая Вектора вероятностей классов, порог позволяет разделить классы, кривая строится для разных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-16.jpg)
порога. Выбор порога обусловлен задачей, можно сдвинуть в сторону того или иного класса.
Для каждого класса своя ROC-кривая при многоклассовой классификации
Слайд 27Признаки
Локальные признаки (local feature) извлекаются в первом скрытом слое.
Глобальные признаки (global
![Признаки Локальные признаки (local feature) извлекаются в первом скрытом слое. Глобальные признаки](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-26.jpg)
feature) извлекаются во втором скрытом слое. В частности, нейрон второго скрытого слоя "обобщает" выходные сигналы нейронов первого скрытого слоя, относящихся к конкретной области входного пространства
Слайд 32Влияние скорости на процесс обучения
![Влияние скорости на процесс обучения](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-31.jpg)
Слайд 43Стохастический градиентный спуск
Суть – обновление весов по одному объекту
1 эпоха = 1
![Стохастический градиентный спуск Суть – обновление весов по одному объекту 1 эпоха](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1178463/slide-42.jpg)
итерация
На каждой эпохе не гарантируется движение в сторону наискорейшего убывания функции