Статистические методы в QSAR

Содержание

Слайд 2

Затронутые темы

Задача статистического анализа в QSAR
Множественная линейная регрессия
Статистические показатели: R, s,

Затронутые темы Задача статистического анализа в QSAR Множественная линейная регрессия Статистические показатели:
F
Пошаговый вариант множественной линейной регрессии
Разбиение выборки на обучающую и контрольную
Процедура скользящего контроля

Слайд 3

Задача статистического анализа в QSAR

Целью статистического анализа в QSAR является поиск

Задача статистического анализа в QSAR Целью статистического анализа в QSAR является поиск
функции f, связывающей значение свойства y (которое может быть как физико-химическим свойством, так и биологической активностью) со значениями дескрипторов x1,…,xM, описывающих химическое соединение:

Y непрерывное – регрессионный анализ, аппроксимация функции

Y дискретное – дискриминантный анализ, классификация, распознавание образов

Слайд 4

Задача статистического анализа в QSAR

j=1,…,N

Принцип максимального правдоподобия

Задача статистического анализа в QSAR j=1,…,N Принцип максимального правдоподобия

Слайд 5

Метод наименьших квадратов

Выборка является репрезентативной
Случайная величина ε имеет нормальное распределение
Наблюдения являются

Метод наименьших квадратов Выборка является репрезентативной Случайная величина ε имеет нормальное распределение
независимыми
Наблюдения являются равноточными

Слайд 6

Множественная линейная регрессия – постановка задачи

j = 1,…,N

Найти такие значения Ci:

Множественная линейная регрессия – постановка задачи j = 1,…,N Найти такие значения Ci:

Слайд 7

Множественная линейная регрессия – решение задачи

Регрессионные коэффициенты

Экспериментальные значения свойства

Значения дескрипторов

Множественная линейная регрессия – решение задачи Регрессионные коэффициенты Экспериментальные значения свойства Значения дескрипторов

Слайд 8

Статистические показатели для МЛР

RSS – сумма квадратов остатков

SS – дисперсия свойства Y

R

Статистические показатели для МЛР RSS – сумма квадратов остатков SS – дисперсия
– коэффициент корреляции

O

Radj – скорректированный коэффициент корреляции

Слайд 9

Статистические показатели для МЛР

RMSE – среднеквадратичное значение ошибки

s – стандартное отклонение

MAE –

Статистические показатели для МЛР RMSE – среднеквадратичное значение ошибки s – стандартное
средняя абсолютная ошибка

F – критерий Фишера

Слайд 10

Статистические показатели для МЛР

Статистические показатели для МЛР

Слайд 11

Статистические показатели для МЛР

Статистические показатели для МЛР

Слайд 12

Статистические показатели для МЛР

Статистические показатели для МЛР

Слайд 13

Статистические показатели для МЛР

Индивидуальный t-критерий (критерий Стьюдента) для дескриптора

Статистические показатели для МЛР Индивидуальный t-критерий (критерий Стьюдента) для дескриптора

Слайд 14

Необходимость отбора дескрипторов

Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1
Проблема переопределенности моделей
Внесение

Необходимость отбора дескрипторов Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1 Проблема переопределенности
«шума» в модель нерелевантными дескрипторами

Слайд 15

Пошаговый вариант множественной линейной регрессии

Дескриптор включается в модель, если

Дескриптор исключается из

Пошаговый вариант множественной линейной регрессии Дескриптор включается в модель, если Дескриптор исключается
модели, если

Типичные значения порогов: FIN = 3.84, FOUT = 2.7

Слайд 16

Разбиение выборки на обучающую и контрольную

PRSSS - сумма квадратов остатков при

Разбиение выборки на обучающую и контрольную PRSSS - сумма квадратов остатков при
прогнозе

PSSS - дисперсия свойства y на контрольной выборке

PRMSES - среднеквадратичная ошибка на прогнозе

PMAES - средняя абсолютная ошибка на прогнозе

Q2s - квадрат коэффициента корреляции на прогнозе

Слайд 17

Процедура скользящего контроля (cross-validation)

При μ-кратном скользящем контроле исходная выборка разбивается на μ

Процедура скользящего контроля (cross-validation) При μ-кратном скользящем контроле исходная выборка разбивается на
приблизительно равных частей
Каждая из этих частей по очереди объявляется контрольной выборкой
Для нее формируется обучающая выборка, состоящая из всех соединений из исходной выборки, в нее не входящих
По обучающей выборке строится регрессионная модель
По текущей контрольной выборке вычисляется сумма квадратов ошибок PRSSs и сумма абсолютных ошибок PSAEs
Пункты 2-5 повторяются для всех μ частей
Имя файла: Статистические-методы-в-QSAR.pptx
Количество просмотров: 196
Количество скачиваний: 0