Data science. Кластеризация

Февраль 28, 2021

Главная
Информатика
Data science. Кластеризация

Содержание

2. Data Science — это работа с большими данными (англ. Big Data). 1 ZB = 10^21 bytes
3. Эволюция в области хранения и Обработки данных
4. Кто такой Data Scientist?
5. Классификация Регрессия Кластеризация
6. Независимые переменные Зависимая
7. Тренировочные данные, независимые данные. Тестовые данные Независимые переменные зависимые зависимые Исходные данные Модель МО Тестовые данные
9. Кластеризация молекул
11. Задача на Python c1ccc(c(c1)C(=O)O)O Salicylic acid C1=CC(=C(C=C1N)O)C(=O)O PASA
14. Сложности.. У нас есть список из 5 молекул (1 – 5). Нужно рассчитать коэфф. Танимото для
15. Трудности…
16. Принцип кластеризации
17. D B С А
18. Расстояние Для кластеризации необходимы: Расстояние Центроиды Цель – найти оптимальные центройды при данном расстоянии
19. Не оптимальный центроид Оптимальный центроид
20. Гиперпараметр – Tanimoto distance cut-off Чем больше значение расстояния – тем больше кластеры содержат элементов. Тем
23. Play with cut-off
26. Скачать презентацию

Слайд 2

Data Science — это работа с большими данными (англ. Big Data).
1 ZB = 10^21 bytes
1 TB =

Data Science — это работа с большими данными (англ. Big Data). 1

10^12 bytes

Слайд 3

Эволюция в
области
хранения и
Обработки
данных

Эволюция в области хранения и Обработки данных

Слайд 4

Кто такой Data Scientist?

Кто такой Data Scientist?

Слайд 5

Классификация
Регрессия
Кластеризация

Классификация Регрессия Кластеризация

Слайд 6

Независимые переменные
Зависимая

Независимые переменные Зависимая

Слайд 7

Тренировочные данные, независимые данные.
Тестовые данные
Независимые переменные
зависимые
зависимые
Исходные данные
Модель МО
Тестовые данные
Независимые переменные
Тренировочные данные,

Тренировочные данные, независимые данные. Тестовые данные Независимые переменные зависимые зависимые Исходные данные

независимые данные.

зависимые

зависимые

VS

Слайд 8

Слайд 9

Кластеризация молекул

Кластеризация молекул

Слайд 10

Слайд 11

Задача на Python
c1ccc(c(c1)C(=O)O)O
Salicylic acid
C1=CC(=C(C=C1N)O)C(=O)O
PASA

Задача на Python c1ccc(c(c1)C(=O)O)O Salicylic acid C1=CC(=C(C=C1N)O)C(=O)O PASA

Слайд 12

Слайд 13

Слайд 14

Сложности..
У нас есть список из 5 молекул (1 – 5). Нужно рассчитать

Сложности.. У нас есть список из 5 молекул (1 – 5). Нужно

коэфф. Танимото для каждой пары из молекул без повторений.
[1 2 3 4 5 ]
1 – 2, 1 – 3, 1 – 4, 1 – 5
2 – 3, 2 – 4, 2 – 5
3 – 4, 3 – 5,
4 – 5.

Слайд 15

Трудности…

Трудности…

Слайд 16

Принцип кластеризации

Принцип кластеризации

Слайд 17

D
B
С
А

D B С А

Слайд 18

Расстояние
Для кластеризации необходимы:
Расстояние
Центроиды
Цель – найти оптимальные
центройды при данном
расстоянии

Расстояние Для кластеризации необходимы: Расстояние Центроиды Цель – найти оптимальные центройды при данном расстоянии

Слайд 19

Не оптимальный
центроид
Оптимальный
центроид

Не оптимальный центроид Оптимальный центроид

Слайд 20

Гиперпараметр –
Tanimoto distance cut-off
Чем больше значение расстояния –
тем больше

Гиперпараметр – Tanimoto distance cut-off Чем больше значение расстояния – тем больше

кластеры содержат элементов.
Тем меньше кластеров

Слайд 21

Слайд 22

Слайд 23

Play with cut-off

Play with cut-off

Слайд 24