Data science. Кластеризация

Содержание

Слайд 2

Data Science — это работа с большими данными (англ. Big Data).

1 ZB = 10^21 bytes

1 TB =

Data Science — это работа с большими данными (англ. Big Data). 1
10^12 bytes

Слайд 3

Эволюция в
области
хранения и
Обработки
данных

Эволюция в области хранения и Обработки данных

Слайд 4

Кто такой Data Scientist?

Кто такой Data Scientist?

Слайд 5

Классификация

Регрессия

Кластеризация

Классификация Регрессия Кластеризация

Слайд 6

Независимые переменные

Зависимая

Независимые переменные Зависимая

Слайд 7

Тренировочные данные, независимые данные.

Тестовые данные
Независимые переменные

зависимые

зависимые

Исходные данные

Модель МО

Тестовые данные
Независимые переменные

Тренировочные данные,

Тренировочные данные, независимые данные. Тестовые данные Независимые переменные зависимые зависимые Исходные данные
независимые данные.

зависимые

зависимые

VS

Слайд 9

Кластеризация молекул

Кластеризация молекул

Слайд 11

Задача на Python

c1ccc(c(c1)C(=O)O)O

Salicylic acid

C1=CC(=C(C=C1N)O)C(=O)O

PASA

Задача на Python c1ccc(c(c1)C(=O)O)O Salicylic acid C1=CC(=C(C=C1N)O)C(=O)O PASA

Слайд 14

Сложности..

У нас есть список из 5 молекул (1 – 5). Нужно рассчитать

Сложности.. У нас есть список из 5 молекул (1 – 5). Нужно
коэфф. Танимото для каждой пары из молекул без повторений.
[1 2 3 4 5 ]
1 – 2, 1 – 3, 1 – 4, 1 – 5
2 – 3, 2 – 4, 2 – 5
3 – 4, 3 – 5,
4 – 5.

Слайд 15

Трудности…

Трудности…

Слайд 16

Принцип кластеризации

Принцип кластеризации

Слайд 18

Расстояние

Для кластеризации необходимы:
Расстояние
Центроиды
Цель – найти оптимальные
центройды при данном
расстоянии

Расстояние Для кластеризации необходимы: Расстояние Центроиды Цель – найти оптимальные центройды при данном расстоянии

Слайд 19

Не оптимальный
центроид

Оптимальный
центроид

Не оптимальный центроид Оптимальный центроид

Слайд 20

Гиперпараметр –
Tanimoto distance cut-off

Чем больше значение расстояния –
тем больше

Гиперпараметр – Tanimoto distance cut-off Чем больше значение расстояния – тем больше
кластеры содержат элементов.
Тем меньше кластеров

Слайд 23

Play with cut-off

Play with cut-off