Статистические методы в QSAR

Февраль 12, 2021

Главная
Разное
Статистические методы в QSAR

Содержание

2. Затронутые темы Задача статистического анализа в QSAR Множественная линейная регрессия Статистические показатели: R, s, F Пошаговый
3. Задача статистического анализа в QSAR Целью статистического анализа в QSAR является поиск функции f, связывающей значение
4. Задача статистического анализа в QSAR j=1,…,N Принцип максимального правдоподобия
5. Метод наименьших квадратов Выборка является репрезентативной Случайная величина ε имеет нормальное распределение Наблюдения являются независимыми Наблюдения
6. Множественная линейная регрессия – постановка задачи j = 1,…,N Найти такие значения Ci:
7. Множественная линейная регрессия – решение задачи Регрессионные коэффициенты Экспериментальные значения свойства Значения дескрипторов
8. Статистические показатели для МЛР RSS – сумма квадратов остатков SS – дисперсия свойства Y R –
9. Статистические показатели для МЛР RMSE – среднеквадратичное значение ошибки s – стандартное отклонение MAE – средняя
10. Статистические показатели для МЛР
11. Статистические показатели для МЛР
12. Статистические показатели для МЛР
13. Статистические показатели для МЛР Индивидуальный t-критерий (критерий Стьюдента) для дескриптора
14. Необходимость отбора дескрипторов Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1 Проблема переопределенности моделей Внесение «шума» в
15. Пошаговый вариант множественной линейной регрессии Дескриптор включается в модель, если Дескриптор исключается из модели, если Типичные
16. Разбиение выборки на обучающую и контрольную PRSSS - сумма квадратов остатков при прогнозе PSSS - дисперсия
17. Процедура скользящего контроля (cross-validation) При μ-кратном скользящем контроле исходная выборка разбивается на μ приблизительно равных частей
19. Скачать презентацию

Затронутые темы
Задача статистического анализа в QSAR
Множественная линейная регрессия
Статистические показатели: R, s,

F
Пошаговый вариант множественной линейной регрессии
Разбиение выборки на обучающую и контрольную
Процедура скользящего контроля

Задача статистического анализа в QSAR
Целью статистического анализа в QSAR является поиск

функции f, связывающей значение свойства y (которое может быть как физико-химическим свойством, так и биологической активностью) со значениями дескрипторов x1,…,xM, описывающих химическое соединение:

Y непрерывное – регрессионный анализ, аппроксимация функции

Y дискретное – дискриминантный анализ, классификация, распознавание образов

Задача статистического анализа в QSAR
j=1,…,N
Принцип максимального правдоподобия

Метод наименьших квадратов
Выборка является репрезентативной
Случайная величина ε имеет нормальное распределение
Наблюдения являются

независимыми
Наблюдения являются равноточными

Множественная линейная регрессия – постановка задачи
j = 1,…,N
Найти такие значения Ci:

Множественная линейная регрессия – решение задачи
Регрессионные коэффициенты
Экспериментальные значения свойства
Значения дескрипторов

Статистические показатели для МЛР
RSS – сумма квадратов остатков
SS – дисперсия свойства Y
R

– коэффициент корреляции

Radj – скорректированный коэффициент корреляции

Статистические показатели для МЛР
RMSE – среднеквадратичное значение ошибки
s – стандартное отклонение
MAE –

средняя абсолютная ошибка

F – критерий Фишера

Статистические показатели для МЛР

Статистические показатели для МЛР
Индивидуальный t-критерий (критерий Стьюдента) для дескриптора

Необходимость отбора дескрипторов
Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1
Проблема переопределенности моделей
Внесение

«шума» в модель нерелевантными дескрипторами

Пошаговый вариант множественной линейной регрессии
Дескриптор включается в модель, если
Дескриптор исключается из

модели, если

Типичные значения порогов: FIN = 3.84, FOUT = 2.7

Разбиение выборки на обучающую и контрольную
PRSSS - сумма квадратов остатков при

прогнозе

PSSS - дисперсия свойства y на контрольной выборке

PRMSES - среднеквадратичная ошибка на прогнозе

PMAES - средняя абсолютная ошибка на прогнозе

Q2s - квадрат коэффициента корреляции на прогнозе

Процедура скользящего контроля (cross-validation)
При μ-кратном скользящем контроле исходная выборка разбивается на μ

приблизительно равных частей
Каждая из этих частей по очереди объявляется контрольной выборкой
Для нее формируется обучающая выборка, состоящая из всех соединений из исходной выборки, в нее не входящих
По обучающей выборке строится регрессионная модель
По текущей контрольной выборке вычисляется сумма квадратов ошибок PRSSs и сумма абсолютных ошибок PSAEs
Пункты 2-5 повторяются для всех μ частей

Статистические методы в QSAR

Содержание

Слайд 2

Затронутые темы
Задача статистического анализа в QSAR
Множественная линейная регрессия
Статистические показатели: R, s,

Слайд 3

Задача статистического анализа в QSAR
Целью статистического анализа в QSAR является поиск

Слайд 4

Задача статистического анализа в QSAR
j=1,…,N
Принцип максимального правдоподобия

Слайд 5

Метод наименьших квадратов
Выборка является репрезентативной
Случайная величина ε имеет нормальное распределение
Наблюдения являются

Слайд 6

Множественная линейная регрессия – постановка задачи
j = 1,…,N
Найти такие значения Ci:

Слайд 7

Множественная линейная регрессия – решение задачи
Регрессионные коэффициенты
Экспериментальные значения свойства
Значения дескрипторов

Слайд 8

Статистические показатели для МЛР
RSS – сумма квадратов остатков
SS – дисперсия свойства Y
R

Слайд 9

Статистические показатели для МЛР
RMSE – среднеквадратичное значение ошибки
s – стандартное отклонение
MAE –

Слайд 10

Статистические показатели для МЛР

Слайд 11

Статистические показатели для МЛР

Слайд 12

Статистические показатели для МЛР

Слайд 13

Статистические показатели для МЛР
Индивидуальный t-критерий (критерий Стьюдента) для дескриптора

Слайд 14

Необходимость отбора дескрипторов
Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1
Проблема переопределенности моделей
Внесение

Слайд 15

Пошаговый вариант множественной линейной регрессии
Дескриптор включается в модель, если
Дескриптор исключается из

Слайд 16

Разбиение выборки на обучающую и контрольную
PRSSS - сумма квадратов остатков при

Слайд 17

Процедура скользящего контроля (cross-validation)
При μ-кратном скользящем контроле исходная выборка разбивается на μ

Статистические методы в QSAR

Содержание

Затронутые темыЗадача статистического анализа в QSAR Множественная линейная регрессияСтатистические показатели: R, s,

Задача статистического анализа в QSAR Целью статистического анализа в QSAR является поиск

Задача статистического анализа в QSARj=1,…,N Принцип максимального правдоподобия

Метод наименьших квадратовВыборка является репрезентативнойСлучайная величина ε имеет нормальное распределение Наблюдения являются

Множественная линейная регрессия – постановка задачиj = 1,…,N Найти такие значения Ci:

Множественная линейная регрессия – решение задачиРегрессионные коэффициентыЭкспериментальные значения свойстваЗначения дескрипторов

Статистические показатели для МЛРRSS – сумма квадратов остатковSS – дисперсия свойства YR

Статистические показатели для МЛРRMSE – среднеквадратичное значение ошибкиs – стандартное отклонениеMAE –

Статистические показатели для МЛР

Статистические показатели для МЛР

Статистические показатели для МЛР

Статистические показатели для МЛРИндивидуальный t-критерий (критерий Стьюдента) для дескриптора

Необходимость отбора дескрипторовПроблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1 Проблема переопределенности моделейВнесение

Пошаговый вариант множественной линейной регрессии Дескриптор включается в модель, еслиДескриптор исключается из

Разбиение выборки на обучающую и контрольную PRSSS - сумма квадратов остатков при

Процедура скользящего контроля (cross-validation)При μ-кратном скользящем контроле исходная выборка разбивается на μ

Похожие презентации

Затронутые темы
Задача статистического анализа в QSAR
Множественная линейная регрессия
Статистические показатели: R, s,

Задача статистического анализа в QSAR
Целью статистического анализа в QSAR является поиск

Задача статистического анализа в QSAR
j=1,…,N
Принцип максимального правдоподобия

Метод наименьших квадратов
Выборка является репрезентативной
Случайная величина ε имеет нормальное распределение
Наблюдения являются

Множественная линейная регрессия – постановка задачи
j = 1,…,N
Найти такие значения Ci:

Множественная линейная регрессия – решение задачи
Регрессионные коэффициенты
Экспериментальные значения свойства
Значения дескрипторов

Статистические показатели для МЛР
RSS – сумма квадратов остатков
SS – дисперсия свойства Y
R

Статистические показатели для МЛР
RMSE – среднеквадратичное значение ошибки
s – стандартное отклонение
MAE –

Статистические показатели для МЛР
Индивидуальный t-критерий (критерий Стьюдента) для дескриптора

Необходимость отбора дескрипторов
Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1
Проблема переопределенности моделей
Внесение

Пошаговый вариант множественной линейной регрессии
Дескриптор включается в модель, если
Дескриптор исключается из

Разбиение выборки на обучающую и контрольную
PRSSS - сумма квадратов остатков при

Процедура скользящего контроля (cross-validation)
При μ-кратном скользящем контроле исходная выборка разбивается на μ