Нейронные сети

Март 2, 2021

Главная
Информатика
Нейронные сети

Содержание

3. Хайкин С. Нейронные сети: полный курс, 2-е изд., 2006 Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое
7. Говорят, что компьютерная программа обучается на опыте E относительно некоторого класса задач T и меры качества
8. Классификация Классификация при отсутствии некоторых данных Регрессия Машинный перевод Структурный вывод Обнаружение аномалий Синтез и выборка
9. ОБУЧЕНИЕ
10. Ошибочная цель (неточная, неправильная) Ложные корреляции Накопление шума Технологические ошибки, неправильные запросы Данные не полны и/или
11. ЗАНЯТНЫЕ СОВПАДЕНИЯ
12. ЗАНЯТНЫЕ СОВПАДЕНИЯ
13. РАБОТА СПЕЦИАЛИСТА ПО ДАННЫМ
14. CRISP-DM
15. ПРОЦЕСС РАЗРАБОТКИ РЕШЕНИЙ В МО
16. DevOps DataOps ModelOps MLOps ГИБКИЕ ПРАКТИКИ
17. КОНВЕЙЕР ДАННЫХ
18. DATAOPS
19. MLOPS LEVEL 0
20. MLOPS LEVEL 1
21. MLOPS LEVEL 2
22. Входные данные должны иметь смысл Ошибка в коде загрузчика Ошибки в разметке входных данных Слишком много
23. Извлекайте все данные, которые можно извлечь, но руководствуйтесь здравым смыслом. Оцените временной горизонт, полноту и корректность
24. Размерность пространства решения определяется количеством признаков и их увеличение приводит к экспоненциальному росту данных. Это в
25. тесная корреляционная взаимосвязь между отбираемыми для анализа признаками, совместно воздействующими на общий результат МУЛЬТИКОЛЛИНЕАРНОСТЬ
26. Инженерия признаков (feature extraction and feature engineering) – превращение данных, специфических для предметной области, в понятные
27. Исходные Производные Агрегированные – показатели, определенные по группе (сумма, среднее, минимум, максимум) Индикаторы – наличие или
28. тексты – это токенизация изображения – извлечение краев и цветовые пятна дата и время– полезно вычленить
29. Знание предметной области Описательная статистика Матрица корреляций признаков – с высокой степенью корреляции подумать над удалением
30. ОПИСАТЕЛЬНАЯ СТАТИСТИКА
31. Критерий Пирсона Прирост информации Критерий Гини Gain_ratio из алгоритма C4.5 ВАЖНОСТЬ ПРИЗНАКА
32. КРИТЕРИЙ РАЗБИЕНИЯ
33. КРИТЕРИЙ РАЗБИЕНИЯ
34. КРИТЕРИЙ РАЗБИЕНИЯ
35. Неоткалиброванные признаки Слишком сильная аугментация Применение предобработки только для одной из выборок Долговечность признака Пропуски Нерегулярная
36. Если доля пропущенных значений выше 60%, такой признак стоит игнорировать Иногда сам факт отсутствия данных может
37. Не заполнять пропуски нулями! Не применять восстановление к признакам, имеющим более 30% пропусков среднее значение или
38. Если равна 1, полезной информации нет, удалить Если мощность значительно меньше количества экземпляров, можно изменить тип
39. ВЫБРОСЫ
40. ПОРОГИ ОТСЕЧЕНИЯ
41. НОРМАЛИЗАЦИЯ
42. Обертка – процедура поиска, которая включает обучение и оценку модели. Начинаем с пустого множества и добавляем
44. Скачать презентацию

Хайкин С. Нейронные сети: полный курс, 2-е изд., 2006
Гудфеллоу Я., Бенджио И.,

Курвилль А. Глубокое обучение, 2-е изд., 2018

ЛИТЕРАТУРА

Говорят, что компьютерная программа обучается на опыте E относительно некоторого класса задач

T и меры качества P, если качество на задачах из T, измеренное с помощью P, возрастает с ростом опыта E

МАШИННОЕ ОБУЧЕНИЕ

Классификация
Классификация при отсутствии некоторых данных
Регрессия
Машинный перевод
Структурный вывод
Обнаружение аномалий
Синтез и выборка
Шумоподавление
Кластеризация
ЗАДАЧА

ОБУЧЕНИЕ

Ошибочная цель (неточная, неправильная)
Ложные корреляции
Накопление шума
Технологические ошибки, неправильные запросы
Данные не полны и/или

загрязнены
Не интерпретируемые модели
Невоспроизводимые результаты
Нет реальных данных
Ошибки в архитектуре

ПРИЧИНЫ НЕУДАЧ

ЗАНЯТНЫЕ СОВПАДЕНИЯ

РАБОТА СПЕЦИАЛИСТА ПО ДАННЫМ

CRISP-DM

ПРОЦЕСС РАЗРАБОТКИ РЕШЕНИЙ В МО

DevOps
DataOps
ModelOps
MLOps
ГИБКИЕ ПРАКТИКИ

КОНВЕЙЕР ДАННЫХ

DATAOPS

MLOPS LEVEL 0

MLOPS LEVEL 1

MLOPS LEVEL 2

Входные данные должны иметь смысл
Ошибка в коде загрузчика
Ошибки в разметке входных данных
Слишком

много шума
Порядок данных
Несбалансированность классов
Малая обучающая выборка

ПРОБЛЕМЫ С НАБОРОМ ДАННЫХ

Извлекайте все данные, которые можно извлечь, но руководствуйтесь здравым смыслом.
Оцените временной горизонт,

полноту и корректность данных
Можно ли доверять Вашим данным?
Оцените сбалансировать данных по классам
Достаточность размера выборки
Избегайте синтетических данных

ДАННЫЕ

Размерность пространства решения определяется количеством признаков и их увеличение приводит к экспоненциальному

росту данных.
Это в свою очередь ведет к увеличению требуемых вычислительных ресурсов (как по памяти, так и по процессорному времени) и к риску возникновения мультиколлинеарности и переобучения

ПРОКЛЯТИЕ РАЗМЕРНОСТИ

тесная корреляционная взаимосвязь между отбираемыми для анализа признаками, совместно воздействующими на общий

результат

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Инженерия признаков (feature extraction and feature engineering) – превращение данных, специфических для

предметной области, в понятные для модели векторы
Преобразование признаков (feature transformation) – трансформация данных для повышения точности алгоритма
Отбор признаков (feature selection) – отсечение ненужных признаков

ПРОЕКТИРОВАНИЕ ПРИЗНАКОВ

Слайд 27

Исходные
Производные
Агрегированные – показатели, определенные по группе (сумма, среднее, минимум, максимум)
Индикаторы – наличие

или отсутствие характеристики
Отношения – взаимосвязь между двумя или более значениями данных
Отображения – преобразование непрерывных в категориальные

ПРИЗНАКИ

Слайд 28

тексты – это токенизация
изображения – извлечение краев и цветовые пятна
дата и время–

полезно вычленить выходные и праздники, дни недели
местоположение (адрес или координаты) - извлечь плотность, средний доход по району

ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ

Слайд 29

Знание предметной области
Описательная статистика
Матрица корреляций признаков – с высокой степенью корреляции подумать

над удалением
Важность – самые неважные можно удалить, на самые важные посмотреть внимательнее
Оценить распределение - выбросы

ОТБОР ПРИЗНАКОВ

Слайд 30

ОПИСАТЕЛЬНАЯ СТАТИСТИКА

Слайд 31

Критерий Пирсона
Прирост информации
Критерий Гини
Gain_ratio из алгоритма C4.5
ВАЖНОСТЬ ПРИЗНАКА

Слайд 32

КРИТЕРИЙ РАЗБИЕНИЯ

Слайд 33

КРИТЕРИЙ РАЗБИЕНИЯ

Слайд 34

КРИТЕРИЙ РАЗБИЕНИЯ

Слайд 35

Неоткалиброванные признаки
Слишком сильная аугментация
Применение предобработки только для одной из выборок
Долговечность признака
Пропуски
Нерегулярная мощность
Выбросы

– значения, которые лежат далеко от центра распределения признака

ПРОБЛЕМЫ С ПРИЗНАКАМИ

Слайд 36

Если доля пропущенных значений выше 60%, такой признак стоит игнорировать
Иногда сам факт

отсутствия данных может быть полезен

ПРОПУСКИ

Слайд 37

Не заполнять пропуски нулями!
Не применять восстановление к признакам, имеющим более 30% пропусков
среднее

значение или медиана, для категориальных – мода
линейная или логистическая регрессия

ЗАПОЛНЕНИЕ ПРОПУСКОВ

Слайд 38

Если равна 1, полезной информации нет, удалить
Если мощность значительно меньше количества экземпляров,

можно изменить тип признака с непрерывного на категориальный

МОЩНОСТЬ

Слайд 39

ВЫБРОСЫ

Слайд 40

ПОРОГИ ОТСЕЧЕНИЯ

Слайд 41

НОРМАЛИЗАЦИЯ

Слайд 42

Обертка – процедура поиска, которая включает обучение и оценку модели. Начинаем с

пустого множества и добавляем в него по одному признаку при условии, что он улучшает качество модели.
Фильтрация. Набор признаков более общий, чем набор, полученный из обёртки, что приводит к меньшей способности предсказания, чем у обёртки. Однако набор признаков не зависит от модели.
Алгоритм Relief и его производные

ТЕХНИКИ ОТБОРА

Нейронные сети

Содержание

Хайкин С. Нейронные сети: полный курс, 2-е изд., 2006Гудфеллоу Я., Бенджио И.,

Говорят, что компьютерная программа обучается на опыте E относительно некоторого класса задач

ОБУЧЕНИЕ

Ошибочная цель (неточная, неправильная)Ложные корреляцииНакопление шумаТехнологические ошибки, неправильные запросыДанные не полны и/или

ЗАНЯТНЫЕ СОВПАДЕНИЯ

ЗАНЯТНЫЕ СОВПАДЕНИЯ

РАБОТА СПЕЦИАЛИСТА ПО ДАННЫМ

CRISP-DM

ПРОЦЕСС РАЗРАБОТКИ РЕШЕНИЙ В МО

DevOpsDataOpsModelOpsMLOpsГИБКИЕ ПРАКТИКИ

КОНВЕЙЕР ДАННЫХ

DATAOPS

MLOPS LEVEL 0

MLOPS LEVEL 1

MLOPS LEVEL 2

Входные данные должны иметь смыслОшибка в коде загрузчикаОшибки в разметке входных данныхСлишком

Извлекайте все данные, которые можно извлечь, но руководствуйтесь здравым смыслом.Оцените временной горизонт,

Размерность пространства решения определяется количеством признаков и их увеличение приводит к экспоненциальному

тесная корреляционная взаимосвязь между отбираемыми для анализа признаками, совместно воздействующими на общий

Инженерия признаков (feature extraction and feature engineering) – превращение данных, специфических для

ИсходныеПроизводныеАгрегированные – показатели, определенные по группе (сумма, среднее, минимум, максимум)Индикаторы – наличие

тексты – это токенизацияизображения – извлечение краев и цветовые пятнадата и время–

Знание предметной областиОписательная статистикаМатрица корреляций признаков – с высокой степенью корреляции подумать

ОПИСАТЕЛЬНАЯ СТАТИСТИКА

Критерий ПирсонаПрирост информацииКритерий ГиниGain_ratio из алгоритма C4.5ВАЖНОСТЬ ПРИЗНАКА

КРИТЕРИЙ РАЗБИЕНИЯ

КРИТЕРИЙ РАЗБИЕНИЯ

КРИТЕРИЙ РАЗБИЕНИЯ

Если доля пропущенных значений выше 60%, такой признак стоит игнорироватьИногда сам факт

Не заполнять пропуски нулями!Не применять восстановление к признакам, имеющим более 30% пропусковсреднее

Если равна 1, полезной информации нет, удалитьЕсли мощность значительно меньше количества экземпляров,

ВЫБРОСЫ

ПОРОГИ ОТСЕЧЕНИЯ

НОРМАЛИЗАЦИЯ

Обертка – процедура поиска, которая включает обучение и оценку модели. Начинаем с

Похожие презентации

Хайкин С. Нейронные сети: полный курс, 2-е изд., 2006
Гудфеллоу Я., Бенджио И.,

Ошибочная цель (неточная, неправильная)
Ложные корреляции
Накопление шума
Технологические ошибки, неправильные запросы
Данные не полны и/или

DevOps
DataOps
ModelOps
MLOps
ГИБКИЕ ПРАКТИКИ

Входные данные должны иметь смысл
Ошибка в коде загрузчика
Ошибки в разметке входных данных
Слишком

Извлекайте все данные, которые можно извлечь, но руководствуйтесь здравым смыслом.
Оцените временной горизонт,

Исходные
Производные
Агрегированные – показатели, определенные по группе (сумма, среднее, минимум, максимум)
Индикаторы – наличие

тексты – это токенизация
изображения – извлечение краев и цветовые пятна
дата и время–

Знание предметной области
Описательная статистика
Матрица корреляций признаков – с высокой степенью корреляции подумать

Критерий Пирсона
Прирост информации
Критерий Гини
Gain_ratio из алгоритма C4.5
ВАЖНОСТЬ ПРИЗНАКА

Если доля пропущенных значений выше 60%, такой признак стоит игнорировать
Иногда сам факт

Не заполнять пропуски нулями!
Не применять восстановление к признакам, имеющим более 30% пропусков
среднее

Если равна 1, полезной информации нет, удалить
Если мощность значительно меньше количества экземпляров,