Статистические методы в QSAR

Содержание

Слайд 2

Затронутые темы

Многомерный анализ данных
Понятие о дескрипторном пространстве, химическом расстоянии
Понятие о дискриминантном и

Затронутые темы Многомерный анализ данных Понятие о дескрипторном пространстве, химическом расстоянии Понятие
кластерном анализах
Метрика дескрипторного пространства. Коллинеарные и ортогональные дескрипторы
Латентные дескрипторы, оценки (scores) и нагрузки (loading)
Понятие о факторном анализе и методе главных компонент (PCA)
Метод частичных наименьших квадратов (PLS)

Слайд 3

Многомерный анализ данных

Традиционные регрессионные процедуры - число столбцов в матрицах дескрипторов X

Многомерный анализ данных Традиционные регрессионные процедуры - число столбцов в матрицах дескрипторов
относительно невелико, и между ними отсутствуют линейные зависимости

Процедуры многомерного анализа данных могут работать с матрицами дескрипторов X, содержащими большое количество столбцов, многие из которых линейно-зависимы

Слайд 4

Центрирование данных для многомерного анализа

, где

, где

Центрирование данных для многомерного анализа , где , где

Слайд 5

Дескрипторное пространство (пространство признаков, feature space, M-пространство)

Оси x1, x2 – дескрипторы, точки x1,

Дескрипторное пространство (пространство признаков, feature space, M-пространство) Оси x1, x2 – дескрипторы,
x2 – соединения

Слайд 6

Пространство соединений (пространство объектов, object space, N-пространство)

Оси x1, x2 – соединения, вектора

Пространство соединений (пространство объектов, object space, N-пространство) Оси x1, x2 – соединения,
x1, x2 – дескрипторы

Слайд 7

Метрика дескрипторного пространства (химическое расстояние)

Эвклидово расстояние

Манхэттоновское расстояние

Метрика Минковского

Метрика дескрипторного пространства (химическое расстояние) Эвклидово расстояние Манхэттоновское расстояние Метрика Минковского

Слайд 8

Принцип сходства (Similarity Principle)

Постулируется принцип: структурно близкие химические соединения обладают сходными свойствами

Предполагается, что

Принцип сходства (Similarity Principle) Постулируется принцип: структурно близкие химические соединения обладают сходными
всегда можно найти такой набор дескрипторов и такую метрику дескрипторного пространства, чтобы этот принцип выполнялся

Слайд 9

Дискриминантный анализ

активное соединение

неактивное соединение

Дискриминантный анализ активное соединение неактивное соединение

Слайд 10

Дискриминантный анализ

Da

Dna

Соединение спрогнозировано как активное, поскольку Da < Dna

Дискриминантный анализ Da Dna Соединение спрогнозировано как активное, поскольку Da

Слайд 11

Дискриминантный анализ (выбор набора дескрипторов)

Плохой набор дескрипторов

Хороший набор дескрипторов

Дискриминантный анализ (выбор набора дескрипторов) Плохой набор дескрипторов Хороший набор дескрипторов

Слайд 12

Дискриминантный анализ (выбор метрики)

Метрика Эвклида

Метрика Махаланобиса

Дискриминантный анализ (выбор метрики) Метрика Эвклида Метрика Махаланобиса

Слайд 13

Метод ближайших соседей (kNN – k Nearest Neighbours)

Соединение прогнозируется как активное, поскольку

Метод ближайших соседей (kNN – k Nearest Neighbours) Соединение прогнозируется как активное, поскольку Da
Da < Dna

Слайд 14

Кластерный анализ

Задача кластерного анализа – изучение внутренней структуры и выявление группировки данных

Дендограмма

Кластерный анализ Задача кластерного анализа – изучение внутренней структуры и выявление группировки данных Дендограмма

Слайд 15

Свойства пространства соединений

- скалярное произведение векторов

- косинус угла между векторами

- ковариация

- коэффициент

Свойства пространства соединений - скалярное произведение векторов - косинус угла между векторами
корреляции

Слайд 16

Свойства пространства соединений

Коллинеарные вектора – дескрипторы статистически эквивалентны

Перпендикулярные вектора – дескрипторы линейно

Свойства пространства соединений Коллинеарные вектора – дескрипторы статистически эквивалентны Перпендикулярные вектора – дескрипторы линейно независимы
независимы

Слайд 17

Латентные переменные

Одной из главных задач многомерного анализа данных является выявление таких комбинаций

Латентные переменные Одной из главных задач многомерного анализа данных является выявление таких
исходных переменных (дескрипторов), которые бы позволили эффективно решать актуальные задачи:

Описать данные наименьшим числом переменных (факторный анализ)
Добиться максимального разделения классов (факторный дискриминантных анализ)
Построить регрессионную модель с наилучшей прогнозирующей способностью (метод частичный наименьших квадратов)
и т.д.

Подобные комбинации исходных переменных называются латентными переменными (скрытыми факторами, оценками)

Слайд 18

Линейные латентные переменные

Матрица оценок (scores)

Матрица нагрузок (loading)

Вектора s обычно берутся ортогональными,
т.е.

Линейные латентные переменные Матрица оценок (scores) Матрица нагрузок (loading) Вектора s обычно
латентные переменные линейно независимы

Слайд 19

Метод главных компонент (PCA – Principal Component Analysis)

Цель метода главных компонент – описание

Метод главных компонент (PCA – Principal Component Analysis) Цель метода главных компонент
данных минимально возможным количеством латентных переменных

- SVD (Singular Value Decomposition) разложение

Матрица сингулярных значений

Слайд 20

Метод главных компонент (PCA – Principal Component Analysis)

C = XTX – матрица ковариаций

Метод главных компонент (PCA – Principal Component Analysis) C = XTX – матрица ковариаций

Слайд 21

Отбор главных компонент

Отбор главных компонент

Слайд 22

Главные компоненты

Главные компоненты

Слайд 23

Определение размерности данных

K=3

K=2

K=1

Определение размерности данных K=3 K=2 K=1

Слайд 24

Графики оценок и нагрузок

График в координатах главных оценок

График в координатах главных нагрузок

Графики оценок и нагрузок График в координатах главных оценок График в координатах главных нагрузок

Слайд 25

Резюме метода главных компонент

Вычисляется матрица ковариаций
Находятся ее собственные вектора и собственные значения
Отбираются

Резюме метода главных компонент Вычисляется матрица ковариаций Находятся ее собственные вектора и
латентные переменные, соответствующие двум наибольшим собственным значениям
Строятся 2-мерные графики оценок и нагрузок

Слайд 26

Факторный анализ

Определяется число латентных переменных, необходимых для воспроизведения данных с заданной точностью
Путем

Факторный анализ Определяется число латентных переменных, необходимых для воспроизведения данных с заданной
вращения векторов исходных латентных переменных ищутся легко интерпретируемые варианты

Слайд 27

Факторный (канонический) дискриминантный анализ

Ищутся латентные переменные, позволяющие получить наилучшее разделение классов путем

Факторный (канонический) дискриминантный анализ Ищутся латентные переменные, позволяющие получить наилучшее разделение классов
максимизации отношения межгрупповой к общей дисперсии

Слайд 28

Метод частичных наименьших квадратов (PLS – Partial Least Squares)

В методе частичных наименьших

Метод частичных наименьших квадратов (PLS – Partial Least Squares) В методе частичных
квадратов ищется набор латентных переменных, позволяющий получить регрессионную модель с наилучшей прогнозирующей способностью

Слайд 29

Определение оптимального числа латентных переменных

Оптимальное число латентных переменных - 5

Определение оптимального числа латентных переменных Оптимальное число латентных переменных - 5
Имя файла: Статистические-методы-в-QSAR.pptx
Количество просмотров: 190
Количество скачиваний: 0