Нейросети

Содержание

Слайд 2

Виды обучения

Обучение с учителем (supervised learning) – есть размеченные данные (для каждого

Виды обучения Обучение с учителем (supervised learning) – есть размеченные данные (для
примера есть «решение или метка класса»)
С частичным привлечением учителя (semi-supervised learning) – для части прецедентов задается пара «ситуация, решение», а для части - только «ситуация»
Обучение без учителя (unsupervised learning) – есть неразмеченные данные («ситуация»), требуется сгруппировать объекты

Слайд 3

Виды обучения

Обучение с подкреплением (reinforcement learning) – есть размечаемые данные («ситуация, предполагаемое

Виды обучения Обучение с подкреплением (reinforcement learning) – есть размечаемые данные («ситуация,
решение»). Алгоритм обучения работает через вознаграждение за правильное решение или наказание за неправильное.

Слайд 4

Выборки

 

Выборки

Слайд 5

Признаки

Исходные
Производные
Агрегированные – показатели, определенные по группе (сумма, среднее, минимум, максимум)
Индикаторы – наличие

Признаки Исходные Производные Агрегированные – показатели, определенные по группе (сумма, среднее, минимум,
или отсутствие характеристики
Отношения – взаимосвязь между двумя или более значениями данных
Отображения – преобразование непрерывных в категориальные

Слайд 6

Извлечение признаков

Тексты – это токенизация
Изображения – извлечение краев и цветовые пятна
Дата и

Извлечение признаков Тексты – это токенизация Изображения – извлечение краев и цветовые
время – полезно вычленить выходные и праздники, дни недели
Местоположение (адрес или координаты) - извлечь плотность, средний доход по району
Номер телефона – регион и оператор связи
Лаги по времени. Окно 3-7 последовательностей

Слайд 7

Ошибка обобщения

Ошибка обобщения – сумма смещения, дисперсии и величины, называемой неустранимой погрешностью,

Ошибка обобщения Ошибка обобщения – сумма смещения, дисперсии и величины, называемой неустранимой
которая является результатом шума в самой задаче.

Слайд 8

Сложность

количество настраиваемых параметров архитектуры модели, другими словами, сложность модели определяет ее информационную

Сложность количество настраиваемых параметров архитектуры модели, другими словами, сложность модели определяет ее
емкость. При увеличении сложности модели происходит уменьшение смещения и увеличение разброса.

Слайд 9

Недообучение

Недообучение (underfitting) – когда модель, построенная с помощью алгоритма, является слишком упрощенной,

Недообучение Недообучение (underfitting) – когда модель, построенная с помощью алгоритма, является слишком
чтобы представлять базовую взаимосвязь между признаками и классом в обучающей выборке.
Это явление можно заметить по большой ошибке на обучающей выборке (еще говорят, что «не удаётся настроиться на выборку»). Помимо простоты модели, недообучение может возникать еще и из-за малого количества эпох обучения.

Слайд 10

Переобучение

Переобучение (overfitting) – когда модель, построенная с помощью алгоритма, настолько сложна, что

Переобучение Переобучение (overfitting) – когда модель, построенная с помощью алгоритма, настолько сложна,
модель слишком точно приближает обучающую выборку и становится чувствительной к шуму.
Это явление можно заметить по увеличивающейся разнице между ошибкой на обучающей выборке и тестовой выборке с каждой эпохой обучения. Поэтому при обучении строится график изменения ошибки на обучающей и тестовой выборках. Переобученная модель обладает низкой обобщающей способностью, в эксплуатации она будет часто ошибаться.

Слайд 11

Нейросети по характеру связей

Прямого распространения
Обратного распространения, или рекуррентные
Радиально-базисные функции
Самоорганизующиеся

Нейросети по характеру связей Прямого распространения Обратного распространения, или рекуррентные Радиально-базисные функции Самоорганизующиеся

Слайд 12

Кросс-валидация (скользящий контроль)

Метод отложенных данных (holdout method) – разделение 70-30 или 60-40

Кросс-валидация (скользящий контроль) Метод отложенных данных (holdout method) – разделение 70-30 или
или 80-20.
Оценка ошибки близка к ошибке модели на новых данных, но сильно зашумлена.
Для борьбы с шумом многократно случайно разделяют обучающую и тестовую выборку, параметр ошибки при этом усредняют.
Но в процессе итераций каждая точка данных будет попадать в тестовое подмножество различное число раз, что может привести к смещению оценки.

Слайд 13

Кросс-валидация (скользящий контроль)

Контроль по k-блокам (k-fold cross-validation) - данные случайным образом делятся

Кросс-валидация (скользящий контроль) Контроль по k-блокам (k-fold cross-validation) - данные случайным образом
на k непересекающихся подмножеств (5, 10 или 20). После циклического перебора всех k подмножеств полученная оценка усредняется.

Слайд 14

Оценка классификации

 

Оценка классификации

Слайд 15

Оценка классификации

 

Оценка классификации

Слайд 16

F-мера

 

F-мера

Слайд 17

ROC-кривая

Вектора вероятностей классов, порог позволяет разделить классы, кривая строится для разных значений

ROC-кривая Вектора вероятностей классов, порог позволяет разделить классы, кривая строится для разных
порога. Выбор порога обусловлен задачей, можно сдвинуть в сторону того или иного класса.
Для каждого класса своя ROC-кривая при многоклассовой классификации

Слайд 18

ROC-кривая

 

ROC-кривая

Слайд 20

Оценка регрессии

 

Оценка регрессии

Слайд 21

Оценка регрессии

 

Оценка регрессии

Слайд 23

Формальный нейрон

Формальный нейрон

Слайд 24

Формальный нейрон

 

Формальный нейрон

Слайд 25

Сигмоида

Сигмоида

Слайд 26

Многослойный персептрон

Многослойный персептрон

Слайд 27

Признаки

Локальные признаки (local feature) извлекаются в первом скрытом слое.
Глобальные признаки (global

Признаки Локальные признаки (local feature) извлекаются в первом скрытом слое. Глобальные признаки
feature) извлекаются во втором скрытом слое. В частности, нейрон второго скрытого слоя "обобщает" выходные сигналы нейронов первого скрытого слоя, относящихся к конкретной области входного пространства

Слайд 28

Распространение сигнала

Распространение сигнала

Слайд 29

Ошибка обучения

 

Ошибка обучения

Слайд 30

Обратное распространение ошибки

 

Обратное распространение ошибки

Слайд 31

Скорость обучения

 

Скорость обучения

Слайд 32

Влияние скорости на процесс обучения

Влияние скорости на процесс обучения

Слайд 33

Свертка

Свертка

Слайд 34

Свертка

Свертка

Слайд 35

Пулинг

Пулинг

Слайд 37

Google Inception V3

Google Inception V3

Слайд 38

Ядра сверток

Ядра сверток

Слайд 40

Регуляризация

 

Регуляризация

Слайд 41

Штрафы по норме параметров

 

Штрафы по норме параметров

Слайд 42

Регуляризация Тихонова

 

Регуляризация Тихонова

Слайд 43

Стохастический градиентный спуск

Суть – обновление весов по одному объекту
1 эпоха = 1

Стохастический градиентный спуск Суть – обновление весов по одному объекту 1 эпоха
итерация
На каждой эпохе не гарантируется движение в сторону наискорейшего убывания функции