Статистические методы в QSAR

Февраль 12, 2021

Главная
Разное
Статистические методы в QSAR

Содержание

2. Затронутые темы Многомерный анализ данных Понятие о дескрипторном пространстве, химическом расстоянии Понятие о дискриминантном и кластерном
3. Многомерный анализ данных Традиционные регрессионные процедуры - число столбцов в матрицах дескрипторов X относительно невелико, и
4. Центрирование данных для многомерного анализа , где , где
5. Дескрипторное пространство (пространство признаков, feature space, M-пространство) Оси x1, x2 – дескрипторы, точки x1, x2 –
6. Пространство соединений (пространство объектов, object space, N-пространство) Оси x1, x2 – соединения, вектора x1, x2 –
7. Метрика дескрипторного пространства (химическое расстояние) Эвклидово расстояние Манхэттоновское расстояние Метрика Минковского
8. Принцип сходства (Similarity Principle) Постулируется принцип: структурно близкие химические соединения обладают сходными свойствами Предполагается, что всегда
9. Дискриминантный анализ активное соединение неактивное соединение
10. Дискриминантный анализ Da Dna Соединение спрогнозировано как активное, поскольку Da
11. Дискриминантный анализ (выбор набора дескрипторов) Плохой набор дескрипторов Хороший набор дескрипторов
12. Дискриминантный анализ (выбор метрики) Метрика Эвклида Метрика Махаланобиса
13. Метод ближайших соседей (kNN – k Nearest Neighbours) Соединение прогнозируется как активное, поскольку Da
14. Кластерный анализ Задача кластерного анализа – изучение внутренней структуры и выявление группировки данных Дендограмма
15. Свойства пространства соединений - скалярное произведение векторов - косинус угла между векторами - ковариация - коэффициент
16. Свойства пространства соединений Коллинеарные вектора – дескрипторы статистически эквивалентны Перпендикулярные вектора – дескрипторы линейно независимы
17. Латентные переменные Одной из главных задач многомерного анализа данных является выявление таких комбинаций исходных переменных (дескрипторов),
18. Линейные латентные переменные Матрица оценок (scores) Матрица нагрузок (loading) Вектора s обычно берутся ортогональными, т.е. латентные
19. Метод главных компонент (PCA – Principal Component Analysis) Цель метода главных компонент – описание данных минимально
20. Метод главных компонент (PCA – Principal Component Analysis) C = XTX – матрица ковариаций
21. Отбор главных компонент
22. Главные компоненты
23. Определение размерности данных K=3 K=2 K=1
24. Графики оценок и нагрузок График в координатах главных оценок График в координатах главных нагрузок
25. Резюме метода главных компонент Вычисляется матрица ковариаций Находятся ее собственные вектора и собственные значения Отбираются латентные
26. Факторный анализ Определяется число латентных переменных, необходимых для воспроизведения данных с заданной точностью Путем вращения векторов
27. Факторный (канонический) дискриминантный анализ Ищутся латентные переменные, позволяющие получить наилучшее разделение классов путем максимизации отношения межгрупповой
28. Метод частичных наименьших квадратов (PLS – Partial Least Squares) В методе частичных наименьших квадратов ищется набор
29. Определение оптимального числа латентных переменных Оптимальное число латентных переменных - 5
31. Скачать презентацию

Слайд 2

Затронутые темы
Многомерный анализ данных
Понятие о дескрипторном пространстве, химическом расстоянии
Понятие о дискриминантном и

кластерном анализах
Метрика дескрипторного пространства. Коллинеарные и ортогональные дескрипторы
Латентные дескрипторы, оценки (scores) и нагрузки (loading)
Понятие о факторном анализе и методе главных компонент (PCA)
Метод частичных наименьших квадратов (PLS)

Слайд 3

Многомерный анализ данных
Традиционные регрессионные процедуры - число столбцов в матрицах дескрипторов X

относительно невелико, и между ними отсутствуют линейные зависимости

Процедуры многомерного анализа данных могут работать с матрицами дескрипторов X, содержащими большое количество столбцов, многие из которых линейно-зависимы

Слайд 4

Центрирование данных для многомерного анализа
, где
, где

Слайд 5

Дескрипторное пространство (пространство признаков, feature space, M-пространство)
Оси x1, x2 – дескрипторы, точки x1,

x2 – соединения

Слайд 6

Пространство соединений (пространство объектов, object space, N-пространство)
Оси x1, x2 – соединения, вектора

x1, x2 – дескрипторы

Слайд 7

Метрика дескрипторного пространства (химическое расстояние)
Эвклидово расстояние
Манхэттоновское расстояние
Метрика Минковского

Слайд 8

Принцип сходства (Similarity Principle)
Постулируется принцип: структурно близкие химические соединения обладают сходными свойствами
Предполагается, что

всегда можно найти такой набор дескрипторов и такую метрику дескрипторного пространства, чтобы этот принцип выполнялся

Слайд 9

Дискриминантный анализ
активное соединение
неактивное соединение

Слайд 10

Дискриминантный анализ
Da
Dna
Соединение спрогнозировано как активное, поскольку Da < Dna

Слайд 11

Дискриминантный анализ (выбор набора дескрипторов)
Плохой набор дескрипторов
Хороший набор дескрипторов

Слайд 12

Дискриминантный анализ (выбор метрики)
Метрика Эвклида
Метрика Махаланобиса

Слайд 13

Метод ближайших соседей (kNN – k Nearest Neighbours)
Соединение прогнозируется как активное, поскольку

Da < Dna

Слайд 14

Кластерный анализ
Задача кластерного анализа – изучение внутренней структуры и выявление группировки данных
Дендограмма

Слайд 15

Свойства пространства соединений
- скалярное произведение векторов
- косинус угла между векторами
- ковариация
- коэффициент

корреляции

Слайд 16

Свойства пространства соединений
Коллинеарные вектора – дескрипторы статистически эквивалентны
Перпендикулярные вектора – дескрипторы линейно

независимы

Слайд 17

Латентные переменные
Одной из главных задач многомерного анализа данных является выявление таких комбинаций

исходных переменных (дескрипторов), которые бы позволили эффективно решать актуальные задачи:

Описать данные наименьшим числом переменных (факторный анализ)
Добиться максимального разделения классов (факторный дискриминантных анализ)
Построить регрессионную модель с наилучшей прогнозирующей способностью (метод частичный наименьших квадратов)
и т.д.

Подобные комбинации исходных переменных называются латентными переменными (скрытыми факторами, оценками)

Слайд 18

Линейные латентные переменные
Матрица оценок (scores)
Матрица нагрузок (loading)
Вектора s обычно берутся ортогональными,
т.е.

латентные переменные линейно независимы

Слайд 19

Метод главных компонент (PCA – Principal Component Analysis)
Цель метода главных компонент – описание

данных минимально возможным количеством латентных переменных

- SVD (Singular Value Decomposition) разложение

Матрица сингулярных значений

Слайд 20

Метод главных компонент (PCA – Principal Component Analysis)
C = XTX – матрица ковариаций

Слайд 21

Отбор главных компонент

Слайд 22

Главные компоненты

Слайд 23

Определение размерности данных
K=3
K=2
K=1

Слайд 24

Графики оценок и нагрузок
График в координатах главных оценок
График в координатах главных нагрузок

Слайд 25

Резюме метода главных компонент
Вычисляется матрица ковариаций
Находятся ее собственные вектора и собственные значения
Отбираются

латентные переменные, соответствующие двум наибольшим собственным значениям
Строятся 2-мерные графики оценок и нагрузок

Слайд 26

Факторный анализ
Определяется число латентных переменных, необходимых для воспроизведения данных с заданной точностью
Путем

вращения векторов исходных латентных переменных ищутся легко интерпретируемые варианты

Слайд 27

Факторный (канонический) дискриминантный анализ
Ищутся латентные переменные, позволяющие получить наилучшее разделение классов путем

максимизации отношения межгрупповой к общей дисперсии

Слайд 28

Метод частичных наименьших квадратов (PLS – Partial Least Squares)
В методе частичных наименьших

квадратов ищется набор латентных переменных, позволяющий получить регрессионную модель с наилучшей прогнозирующей способностью

Статистические методы в QSAR

Содержание

Затронутые темыМногомерный анализ данныхПонятие о дескрипторном пространстве, химическом расстоянииПонятие о дискриминантном и

Многомерный анализ данныхТрадиционные регрессионные процедуры - число столбцов в матрицах дескрипторов X

Центрирование данных для многомерного анализа, где, где

Дескрипторное пространство (пространство признаков, feature space, M-пространство)Оси x1, x2 – дескрипторы, точки x1,

Пространство соединений (пространство объектов, object space, N-пространство)Оси x1, x2 – соединения, вектора

Метрика дескрипторного пространства (химическое расстояние)Эвклидово расстояниеМанхэттоновское расстояниеМетрика Минковского

Принцип сходства (Similarity Principle)Постулируется принцип: структурно близкие химические соединения обладают сходными свойствамиПредполагается, что

Дискриминантный анализактивное соединениенеактивное соединение

Дискриминантный анализDaDnaСоединение спрогнозировано как активное, поскольку Da < Dna

Дискриминантный анализ (выбор набора дескрипторов)Плохой набор дескрипторовХороший набор дескрипторов

Дискриминантный анализ (выбор метрики)Метрика ЭвклидаМетрика Махаланобиса

Метод ближайших соседей (kNN – k Nearest Neighbours)Соединение прогнозируется как активное, поскольку

Кластерный анализЗадача кластерного анализа – изучение внутренней структуры и выявление группировки данныхДендограмма

Свойства пространства соединений- скалярное произведение векторов- косинус угла между векторами- ковариация- коэффициент

Свойства пространства соединенийКоллинеарные вектора – дескрипторы статистически эквивалентныПерпендикулярные вектора – дескрипторы линейно

Латентные переменныеОдной из главных задач многомерного анализа данных является выявление таких комбинаций

Линейные латентные переменныеМатрица оценок (scores)Матрица нагрузок (loading)Вектора s обычно берутся ортогональными, т.е.

Метод главных компонент (PCA – Principal Component Analysis)Цель метода главных компонент – описание

Метод главных компонент (PCA – Principal Component Analysis)C = XTX – матрица ковариаций