Построение регрессионных моделей и решение задачи предсказания

Содержание

Слайд 2

Два класса решаемых задач

Два класса решаемых задач

Слайд 3

Постановка задачи. Исходные данные

Постановка задачи. Исходные данные

Слайд 4

Цель исследования

Построить модель для известных наборов X и Y
Оценить возможности модели

Цель исследования Построить модель для известных наборов X и Y Оценить возможности
для предсказания неизвестных значений Y по новым значениям X.

Слайд 5

Множественная регрессия.

Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых

Множественная регрессия. Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов.
значениях откликов.

Слайд 6

Коллинеарность

Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е.

Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция,
они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn)

Слайд 7

Двухэтапная процедура РГК

Регрессия на главные компоненты (РГК)

Двухэтапная процедура РГК Регрессия на главные компоненты (РГК)

Слайд 8

Моделирование – хемометрический подход

Моделирование – хемометрический подход

Слайд 9

Обучающий набор данных

Набор должен быть достаточно большим
Должны охватывать всю будущую совокупность

Обучающий набор данных Набор должен быть достаточно большим Должны охватывать всю будущую

Измерения X, по возможности, должны быть несложными

Слайд 10

Построение модели

Построение модели

Слайд 11

Оценка антиоксидантов методом ДСК

Объект

Антиоксиданты в ПП

Цель

Оценка эффективности АО

Эксперимент

Длительное термостарение

Обработка

Регрессия на главные компоненты

Y-

Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО
измерения

Дифференц. калориметрия

X- измерения

Температура начала окисления

Слайд 12

ДСК эксперимент

Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v

ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v

Слайд 13

ДСК данные и референтные данные

ДСК данные и референтные данные

Слайд 14

Предварительная обработка данных.

Предварительная обработка данных.

Слайд 15

Метод главных компонент в примере с АО

График счетов (ГК1-ГК2)

ГК1-ГК2: объясняют 96% структуры

Метод главных компонент в примере с АО График счетов (ГК1-ГК2) ГК1-ГК2: объясняют
X и 97 % структуры Y

Стандартная ошибка калибровки

Слайд 16

Тестовый набор данных

Набор должен быть достаточно большим
Должны охватывать всю будущую совокупность

Тестовый набор данных Набор должен быть достаточно большим Должны охватывать всю будущую

Не должны быть «слишком» похож на калибровочный набор

Слайд 17

Моделирование – стадия проверки

Моделирование – стадия проверки

Слайд 18

Способы проверки

Проверка на тестовом наборе

Перекрестная проверка

Проверка корректировкой размахом

Способы проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом

Слайд 19

Перекрестная проверка

Моделируют тестовый набор используя калибровочный

(ycal , Xcal)

Самый медленный способ проверки и

Перекрестная проверка Моделируют тестовый набор используя калибровочный (ycal , Xcal) Самый медленный
не всегда надежный

Слайд 20

Полная перекрестная проверка

Модель

Полная перекрестная проверка Модель

Слайд 21

Проверка корректировкой размахом

Ошибка предсказания всегда оценивается слишком оптимистично

Требует построения лишь одной

Проверка корректировкой размахом Ошибка предсказания всегда оценивается слишком оптимистично Требует построения лишь одной модели
модели

Слайд 22

Сколько выбрать главных компонент

Сколько выбрать главных компонент

Слайд 23

Ошибка моделирования и ошибка предсказания

Ошибка моделирования и ошибка предсказания

Слайд 24

Количество ГК для АО примера

2 главные компоненты

Количество ГК для АО примера 2 главные компоненты

Слайд 25

Прогноз эффективности АО

RMSEP = 0.253

Yпред=Y±2*RMSEP

Прогноз эффективности АО RMSEP = 0.253 Yпред=Y±2*RMSEP

Слайд 26

Слабость РГК

РГК – мощное средство борьбы с мультиколлинеарностью в матрице X

РГК –двухэтапный

Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X
метод

Декомпозиция X по МГК

МЛР

=

+

Эта декомпозиция не учитывает связи между X и Y

Слайд 27

Регрессия на латентные структуры (ПЛС - регрессия)

Регрессия на латентные структуры (ПЛС - регрессия)

Слайд 28

Интерпретация ПЛС-модели

T - матрица счетов

Q - матрица нагрузок

Для X

Для Y

W

Интерпретация ПЛС-модели T - матрица счетов Q - матрица нагрузок Для X
–матрица взвешенных (эффективных) нагрузок

U - матрица счетов

P - матрица нагрузок

Слайд 29

Графике зависимости X-Y

U - T

Графике зависимости X-Y U - T

Слайд 30

График остаточной дисперсии

Для ПЛС-моделей дисперсия должна падать

Остаточная дисперсия Y – количества ГК

График остаточной дисперсии Для ПЛС-моделей дисперсия должна падать Остаточная дисперсия Y – количества ГК

Слайд 31

Заключительный график

Предсказанные значения Y - измеренные значения Y

Заключительный график Предсказанные значения Y - измеренные значения Y

Слайд 32

Определение октанового числа бензина по данным ИК-спектроскопии

Исходные данные
Обучающий массив = 26 образца

Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий массив =

Прогнозный массив = 13 образцов
Количество переменных (длин волн) = 226 (1100 – 1550 nm)
Имя файла: Построение-регрессионных-моделей-и-решение-задачи-предсказания.pptx
Количество просмотров: 149
Количество скачиваний: 0