Проекционные методы в линейном регрессионном анализе: РГК/ПЛС

Содержание

Слайд 2

Андрей Юрьевич Богомолов
Российское хемометрическое общество
European Molecular Biology Laboratory (EMBL)

«Введение в анализ многомерных

Андрей Юрьевич Богомолов Российское хемометрическое общество European Molecular Biology Laboratory (EMBL) «Введение
данных» (школа WSC-5), 16 февраля 2006, Самара

Методы многомерной калибровки

Слайд 3

Тема лекции
Многомерная калибровка
Multivariate Calibration

Анализ многомерных данных (Хемометрика)
Multivariate Data Analysis (Chemometrics)

Тема лекции Многомерная калибровка Multivariate Calibration Анализ многомерных данных (Хемометрика) Multivariate Data Analysis (Chemometrics)

Слайд 4

К вопросу о русской терминологии

родной язык хемометрики - английский
терминология за 30 лет

К вопросу о русской терминологии родной язык хемометрики - английский терминология за
устоялась: статьи, учебники, книги, конференции
привычные аббревиатуры: PCA, PCR, PLS, SIMCA, RMSEP, etc. - не нуждаются в расшифровке
русская терминология создается сейчас
нужен ли перевод? – да!
например: “scores and loadings” (!?)
нужно время, чтобы русские термины вошли в обиход
в настоящей лекции - параллельная терминология

Слайд 5

Калибровка или градуировка?

в русском языке – два сходных термина:
«КАЛИБРОВКА (средств измерений) –

Калибровка или градуировка? в русском языке – два сходных термина: «КАЛИБРОВКА (средств
совокупность операций, выполняемых с целью определения и подтверждения действительных значений метрологических характеристик и (или) пригодности к применению средств измерений…»
«ГРАДУИРОВКА – метрологическая операция, при помощи которой устанавливается значение меры или делениям шкалы измерительного прибора придаются значения...»
на английский оба переводятся как calibration
«градуировка» – официальный термин
в лекции будет использоваться некорректный термин «калибровка»

Слайд 6

Регрессия & Калибровка

“Regression is an approach for relating two sets of variables

Регрессия & Калибровка “Regression is an approach for relating two sets of
to each other” Kim Esbensen
“Calibration is a process of constructing a mathematical model to relate the output of an instrument to properties of samples” Kenneth Beebe
Калибровка ~ Регрессия

Слайд 7

Регрессионный анализ

линейная регрессия
Y = XB + E

МГК (PCA) – моделирование (X)
регрессия

Регрессионный анализ линейная регрессия Y = XB + E МГК (PCA) –
– моделирование (X,Y)

Слайд 8

Спектральные данные

Спектры
(X)

Концентрации
(Y)

Спектральные данные Спектры (X) Концентрации (Y)

Слайд 9

Для чего нужна калибровка?

замена прямого измерения интересующего свойства, измерением другого, коррелирующего с

Для чего нужна калибровка? замена прямого измерения интересующего свойства, измерением другого, коррелирующего
первым
такая потребность возникает если прямое измерение интересующего свойства нежелательно:
дорого
трудоемко
занимает много времени
этически нежелательно
эксперимент невозможен, и т. п.
в подавляющем числе практических ситуаций такая замена оправдана!

Слайд 10

Примеры из различных областей

ХИМИЯ: калибровка – инструмент №1 количественного анализа
БИОЛОГИЯ: непосредственный анализ

Примеры из различных областей ХИМИЯ: калибровка – инструмент №1 количественного анализа БИОЛОГИЯ:
может быть губителен для живых существ
МЕДИЦИНА: неинвазивный анализ, например, определение сахара в крови спектроскопически (ближний ИК)
ПСИХОЛОГИЯ: анализ личности может потребовать длительных наблюдений, желательно использовать косвенные данные
СОЦИОЛОГИЯ и ФИНАНСЫ: предсказание может быть основано только на исторических данных

Слайд 11

Одномерная калибровка: один компонент

univariate calibration

Одномерная калибровка: один компонент univariate calibration

Слайд 12

двухкомпонентная смесь

Одномерная калибровка: многокомпонентная смесь

компоненты

двухкомпонентная смесь Одномерная калибровка: многокомпонентная смесь компоненты

Слайд 13

Многомерная калибровка

y=xb+e

Y=XB+E

Многомерная калибровка y=xb+e Y=XB+E

Слайд 14

Преимущества многомерной калибровки

возможность анализировать несколько компонентов одновременно
выигрыш в точности от усреднения при

Преимущества многомерной калибровки возможность анализировать несколько компонентов одновременно выигрыш в точности от
использования «избыточных», в т.ч. сильно коррелирующих измерений (спектры)
возможность диагностики «плохих» образцов в процессе предсказания
«парадигматический сдвиг» в подходах к решению проблем
с появлением ПЛС регрессии (PLS-R) спектроскопия ближнего ИК стала одним из наиболее популярных методов анализа

Слайд 15

Калибровка и предсказание

Калибровка и предсказание

Слайд 16

Классические и инверсные методы

Два основных подхода в многомерной калибровке:
Классический МНК (Classical

Классические и инверсные методы Два основных подхода в многомерной калибровке: Классический МНК
Least Squares, CLS) основан на прямом решении уравнения Бугера-Ламберта-Бера
A = Cε | X = Yε
Инверсный МНК (Inverse Least Squares, ILS) решают уравнение вида
С = Ab | Y = Xb
В настоящей лекции – только ILS

Слайд 17

Множественная линейная регрессия (МЛР)

Multiple Linear Regression (MLR)

Решение: b = (XT X)-1 XT

Множественная линейная регрессия (МЛР) Multiple Linear Regression (MLR) Решение: b = (XT
y

y=b0 + b1x1 + b2x2+…+bpxp+e

Слайд 18

Недостатки МЛР

МЛР может не сработать, если:
высока коллинеарность в X (спектры)
неустойчивое решение

Недостатки МЛР МЛР может не сработать, если: высока коллинеарность в X (спектры)
для коллинеарных даных обусловлено преобразованием (XT X)-1 XT
высокий уровень шума, ошибки в X
переменных больше, чем образцов (типично для спектральных данных)
есть линейная зависимость между переменными внутри X
визуальная интерпретация МЛР-моделей затруднительна

Слайд 19

Пример спектральных данных: полиароматические углеводороды

Пример спектральных данных: полиароматические углеводороды

Слайд 20

Полиароматические углеводороды: обучающий и тестовый наборы

«simdata»

Полиароматические углеводороды: обучающий и тестовый наборы «simdata»

Слайд 21

МЛР-калибровка (Simdata)

точность МЛР-модели для [С3] (3-го компонента смеси ПАУ) неудовлетворительна

МЛР-калибровка (Simdata) точность МЛР-модели для [С3] (3-го компонента смеси ПАУ) неудовлетворительна

Слайд 22

МГК (Principle Component Analysis) - преобразование: X = TPT + E
счета T

МГК (Principle Component Analysis) - преобразование: X = TPT + E счета
(scores) и нагрузки P (loadings) определяют пространство клавных компонент
T ортогональны и содержит проекции данных на ГК

Метод Главных Компонент (МГК) - оружие против коллинеарности

T можно использовать вместо X для анализа (!)

Слайд 23

Концепция PCA «на пальцах»

X=A(522 nm)
Y=A(644 nm)
Z=A(714 nm)

X=A(430 nm)
Y=A(550 nm)
Z=A(750 nm)

Концепция PCA «на пальцах» X=A(522 nm) Y=A(644 nm) Z=A(714 nm) X=A(430 nm) Y=A(550 nm) Z=A(750 nm)

Слайд 24

МГК + МЛР = РГК! (PCA + MLR = PCR)

МГК-счета (PCA scores)

МГК + МЛР = РГК! (PCA + MLR = PCR) МГК-счета (PCA
T можно использовать вместо X для построения МЛР-модели (MLR):
MLR: y=Xb+e | b=[XXT]-1XTy | ynew =Xnewb (I)
PCR: y=Tb+e | b=[TTT]-1TTy | ynew =Tnewb (II)
Метод называется: регрессия на главные компоненты, РГК (Principal Component Regression, PCR)

Слайд 25

Схема РГК (PCR) – подробнее

PCA:

MLR:

Схема РГК (PCR) – подробнее PCA: MLR:

Слайд 26

Интерпретация РГК-модели

интерпретация модели служит для изучения внутренней структуры данных:
группы
выбросы
связь между X и

Интерпретация РГК-модели интерпретация модели служит для изучения внутренней структуры данных: группы выбросы
Y
инструменты диагностики МГК (PCA) работают в РГК (PCR):
график счетов (scores)
график нагрузок (loadings)
график счетов и нагрузок вместе (bi-plot)
график остатков (residuals)
инструменты диагностики РГК:
совместный график нагрузок X и Y

Слайд 27

Строим РГК-модель (Simdata)

Строим РГК-модель (Simdata)

Слайд 28

Строим РГК-модель (simdata)

Строим РГК-модель (simdata)

Слайд 29

Проверка (валидация) модели

проверка (validation) модели служит для:
определения размерности модели (числа ГК)
оценки предсказательной

Проверка (валидация) модели проверка (validation) модели служит для: определения размерности модели (числа
способности модели
проверка модели производится с помощью тестовых данных:
того же диапазона и того же качества что обущающие данные (та же генеральная выборка)
достаточно представительные
или кросс-валидации (cross-validation)
полная (leave-one-out, LOO)
сегментная (например, Venetian blind)

Слайд 30

Среднеквадратичная ошибка предсказания (RMSEP)

RMSEС = Root Mean Square Error of Calibration
RMSEP =

Среднеквадратичная ошибка предсказания (RMSEP) RMSEС = Root Mean Square Error of Calibration
Root Mean Square Error of Prediction
минимум на кривой RMSEP – основной индикатор числа ГК
RMSEP – оценка точности в единицах измерения (!)
RMSEP используется для сравнения моделей

Слайд 31

Число компонент: почему минимум на кривой RMSEP?

включенная ошибка

остаточная информация

Число компонент: почему минимум на кривой RMSEP? включенная ошибка остаточная информация

Слайд 32

Оценка числа компонент в РГК

правильный выбор числа главных компонент (principle components, PC)

Оценка числа компонент в РГК правильный выбор числа главных компонент (principle components,
- ключевая проблема многомерной калибровки
модель с недостаточным числом ГК (underfitting) не использует всей полезной информации из данных
модель с избыточным числом ГК (overfitting) начинает моделировать шум (ошибку)
найти оптимальную размерность помогают тестовые данные (validation set)

Слайд 33

Число компонент: РГК - simdata

Число компонент: РГК - simdata

Слайд 34

Число компонент: РГК - simdata

Число компонент: РГК - simdata

Слайд 35

Оценка числа ГК в РГК: особенности

число главных компонент (размерность модели) определяется в

Оценка числа ГК в РГК: особенности число главных компонент (размерность модели) определяется
РГК (PCR) нуждами калибровки, и не обязательно совпадает с результатом МГК (PCA)
Особенности:
в РГК есть RMSEP
активно используется тестовые данные (test set)
минимум на кривой RMSEP - основной индикатор числа ГК
для спектральных данных показательной может быть форма X-нагрузок (X-loadings)
решение всегда за экспертом!

Слайд 36

Несовершенства РГК

РГК (PCR) – мощный метод многомерной калибровки
имеет безусловные преимущества перед MLR

Несовершенства РГК РГК (PCR) – мощный метод многомерной калибровки имеет безусловные преимущества

однако, не вполне оптимизирован для калибровки
пространство ГК не учитывает структуры Y и связи между X и Y
можно ли учесть эту связь при построении проекционной модели?
да, это делает PLS!

Слайд 37

Факторные пространства

уравнение PCA имеет универсальный смысл:
X = TPT + E
преобразование называется факторной

Факторные пространства уравнение PCA имеет универсальный смысл: X = TPT + E
компрессией, проекцией данных на факторное пространство (factor space)
парные вектора в T и P называются факторами (factors)
главные компоненты – важный пример факторного пространства, но не единственный
факторное пространство можно оптимизировать для решения конкретной задачи
ГК (PC) оптимальны для исследования структуры X
как оптимизировать пространство для калибровки?

Слайд 38

PLS – мощная альтернатива PCR

Метод проекции на латентные структуры (ПЛС) и ПЛС-регрессия

PLS – мощная альтернатива PCR Метод проекции на латентные структуры (ПЛС) и
(ПЛС-Р)
PLS = Partial Least Squares ->
= Projection on Latent Structures
ПЛС-пространство создается при участии двух переменных X и Y одновременно
критерий – моделирование той структуры (информации) в X, которая коррелирует с Y
например, спектральные полосы (X), которые отвечают за концентрацию компонента(ов), заданные в Y, получат в подели больший вес
метод ПЛС оптимизирован для регрессионного анализа

Слайд 39

ПЛС-регрессия: схематическое представление

участвуют обе матрицы X и Y
факторы рассчитываются по очереди

ПЛС-регрессия: схематическое представление участвуют обе матрицы X и Y факторы рассчитываются по
– алгоритм NIPALS
=> 2 набора счетов (scores) T, U и нагрузок (loadings) P, Q плюс матрица W взвешенных нагрузок (loading-weights)
итерационное улучшение модели, чтобы максимизировать cov(T,U)
Предсказание: Ŷ = Tnew Bt
Ŷ = Xnew B
B = W(PTW)-1QT

X = TPT + Ex
Y = UQT + Ey

[1] S. Wold, H. Martens, H. Wold, Lecture Notes Math. 973 (1983) 286–293

Слайд 40

Две разновидности ПЛС: ПЛС1 и ПЛС2

существуют две популярных разновидности ПЛС: ПЛС1 (PLS1)

Две разновидности ПЛС: ПЛС1 и ПЛС2 существуют две популярных разновидности ПЛС: ПЛС1
и ПЛС2 (PLS2)
ПЛС1 модель строится для единственной переменной y (свойства), например, для концентрации одного компонента смеси
если нужна калибровка по нескольким свойствам, строится несколько независимых моделей
ПЛС2 рассчитывается для нескольких свойств одновременно
расчетные алгоритмы методов отличаются соответственно

Слайд 41

Основы алгоритма ПЛС

ПЛС-декомпозиция производится алгоримом NIPALS
NIPALS = Non-linear Iterative Partial Least Squares
факторы

Основы алгоритма ПЛС ПЛС-декомпозиция производится алгоримом NIPALS NIPALS = Non-linear Iterative Partial
находятся по очереди, один за другим, расчет всех факторов (как в SVD) не обязателен
итерационная замена векторов uf -> tf и uf -> tf для нахождения текущего фактора f - алгоритмическая основа ПЛС2
алгоритм работает до выполнения критерия сходимости
ознакомимся с принципиальной схемой, начиная с более общего ПЛС2

Слайд 42

NIPALS алгоритм для ПЛС2

NIPALS алгоритм для ПЛС2

Слайд 43

NIPALS алгоритм для ПЛС1

NIPALS алгоритм для ПЛС1

Слайд 44

NIPALS алгоритм для ПЛС1

NIPALS алгоритм для ПЛС1

Слайд 45

ПЛС1 и ПЛС2

ПЛС1 моделирует только одну переменную y «за раз»
ПЛС2 позволяет моделировать

ПЛС1 и ПЛС2 ПЛС1 моделирует только одну переменную y «за раз» ПЛС2
любую комбинацию переменных Y без их разделения – совместно
он кажется более подходящим при калибровке нескольких свойств…
однако, ПЛС1 дает по отдельной модели на каждое из интересующих свойств, возможно, с различным числом факторов
не будет ли набор независимых моделей всегда лучшим решением?
однозначного ответа нет…
сравним методы на практике!

Слайд 46

Строим ПЛС2-модель (Simdata)

Строим ПЛС2-модель (Simdata)

Слайд 47

Интерпретация модели служит для изучения внутренней структуры данных
группы
выбросы
взаимовсвязи
Сходство с РГК (PCR):
X-счета и

Интерпретация модели служит для изучения внутренней структуры данных группы выбросы взаимовсвязи Сходство
нагрузки (scores & loadings)
Особенности:
график t – u : метод обнаружения выбросов (outliers)
графики нагрузок w – w : карта переменных
cравнение двух X-нагрузок p – w : насколько Y повлияла на декомпозицию X
график w – q

Интерпретация ПЛС-моделей

Слайд 48

Интерпретация моделей: ПЛС2 против РГК

PLS2

Интерпретация моделей: ПЛС2 против РГК PLS2

Слайд 49

Интерпретация моделей: ПЛС1 против ПЛС2

Интерпретация моделей: ПЛС1 против ПЛС2

Слайд 50

Интерпретация ПЛС-моделей: связь X и Y (Simdata)

Интерпретация ПЛС-моделей: связь X и Y (Simdata)

Слайд 51

Интерпретация ПЛС-модели: выбросы (Octane)

Интерпретация ПЛС-модели: выбросы (Octane)

Слайд 52

Проверка регрессионных моделей

Проверка (validation) модели преследует две основные цели:
Определение оптимального числа компонент
Меньше

Проверка регрессионных моделей Проверка (validation) модели преследует две основные цели: Определение оптимального
факторов чем в РГК
Минимум RMSEP
Оценка предсказательной способности модели:
График “предсказанние относительно измерения” (predicted vs measured)
RMSEP

Слайд 53

Проверка регрессионных моделей: simdata – ПЛС1

Проверка регрессионных моделей: simdata – ПЛС1

Слайд 54

Сравнение моделей: Simdata

Сравнение моделей калибровки трехкомпонентной смеси ПАУ (simdata)

вывод: модели РГК, ПЛС1-Р,

Сравнение моделей: Simdata Сравнение моделей калибровки трехкомпонентной смеси ПАУ (simdata) вывод: модели
ПЛС2-Р примерно одинково хороши для калибровки этих данных (без осложнений)
результаты МЛР значительно хуже, для [C3] - неудовлетворительные

Слайд 55

Сравнение методов калибровки

МЛР (MLR) плохо пригоден для спектроскопических данных
РГК (PCR) имеет недостатки,

Сравнение методов калибровки МЛР (MLR) плохо пригоден для спектроскопических данных РГК (PCR)
но хорошо работает при отсутствии осложнений
ПЛС регрессия (PLS-R) является лучшим решением для большинства практических задач
PLS1 или PLS2?
Как выбрать метод? – пробовать!
Как сравнивать разные модели? RMSEP

Слайд 56

Линейная регрессия и нелинейность

X: 100x351

r=0.999

Линейная регрессия и нелинейность X: 100x351 r=0.999

Слайд 57

Предсказание: диагностика соответствия новых образцов

не все проблемы заканчиваются с построением калибровочной модели!
возможность

Предсказание: диагностика соответствия новых образцов не все проблемы заканчиваются с построением калибровочной
выявления образцов, не соответствующих данной регрессионной модели является одним из преимуществ проекционного подхода
Deviation - эмпирический параметр, характеризующий меру соответствия нового образца калибровочной модели
рассмотрим наш пример…

Слайд 58

Диагностика предсказания (Simdata)

Диагностика предсказания (Simdata)

Слайд 59

Диагностика предсказания: ПЛС1 - Simdata

[C1] = 0 – 1 M

[C2] = 0 –

Диагностика предсказания: ПЛС1 - Simdata [C1] = 0 – 1 M [C2]
0.5 M

[C3] = 0 – 0.05 M

Слайд 60

Правила построения «хорошей» калибровки

правильно приготовить (собрать) образцы
визуально изучить данные, если необходимо, применить

Правила построения «хорошей» калибровки правильно приготовить (собрать) образцы визуально изучить данные, если
предварительную обработку данных (pre-processing)
если необходимо применить шкалирование/ взвешивание (scaling/weighting)
интерпретировать модель, изучить структуру данных, выявить и удалить возможные выбросы
тщательно оценить размерность модели, диагностировать модель
диагностировать предсказание

Слайд 61

План семинара

Пример 1. Концентрационная калибровка трехкомпонентной смеси ПАУ по спектрам в УФ-видимой

План семинара Пример 1. Концентрационная калибровка трехкомпонентной смеси ПАУ по спектрам в
области (искусственные данные).
общие навыки калибровки, интерпретации и диагностики модели, предсказания на «идеальных» данных
Пример 2. Определение октанового числа топлива по спектрам ближнего ИК.
калибровка на реальных данных, обнаружение и удаление выбросов
Пример 3. Качество пшеницы (факультативно).
самостоятельное построение калибровки, MSC, выбор переменных

Слайд 62

Рекомендуемая литература

Richard Kramer
Chemometric Tchniques for Quantitative Analysis *
Kim H. Esbensen
Multivariate Data

Рекомендуемая литература Richard Kramer Chemometric Tchniques for Quantitative Analysis * Kim H.
Analysis - in Practice **
Kenneth R. Beebee et al.
Chemometrics: a Practical Guide **
Harald Martens, Tormod Naes
Multivariate Calibration **
Richard G. Brereton
Chemometrics: Data Analysis for the Laboratory and Chemical Plant ***
Edmund R. Malinowski
Factor Analysis in Chemistry ****

Слайд 63

Пример 1: Калибровка смеси ПАУ

Файл Simdata
Цель: выработка навыков калибровки с программой Unscrambler
изучить

Пример 1: Калибровка смеси ПАУ Файл Simdata Цель: выработка навыков калибровки с
наборы данные: обучающий, тестовый, «unknown» - в таблице, как серии спектров
построить калибровки: РГК, ПЛС2 - сравнить модели
построить ПЛС1 для каждого из 3-х компонентов, определить размерность моделей
изучить графики scores, loadings, T-U, predicted vs measured, RMSEP, Variance для [С1] - [С3] с разным количеством факторов
предсказать «неизвестные» образцы

Слайд 64

Пример 2: Определение октанового числа бензина

стр. 139, файл Octane
Цель: работа с реальными

Пример 2: Определение октанового числа бензина стр. 139, файл Octane Цель: работа
данными, диагностика и устранение выбросов
преимущественно по книге:
построить калибровку ПЛС1, диагностировать
определить выбросы, удалить, обновить модель
проверить модель различными способами, включая тестовый набор
построить РГК, сравнить модели
предсказать «неизвестные» образцы
Имя файла: Проекционные-методы-в-линейном-регрессионном-анализе:-РГК/ПЛС.pptx
Количество просмотров: 287
Количество скачиваний: 2