Слайд 2Data Science — это работа с большими данными (англ. Big Data).
1 ZB = 10^21 bytes
1 TB =

10^12 bytes
Слайд 3Эволюция в
области
хранения и
Обработки
данных

Слайд 5Классификация
Регрессия
Кластеризация

Слайд 6Независимые переменные
Зависимая

Слайд 7Тренировочные данные, независимые данные.
Тестовые данные
Независимые переменные
зависимые
зависимые
Исходные данные
Модель МО
Тестовые данные
Независимые переменные
Тренировочные данные,

независимые данные.
зависимые
зависимые
VS
Слайд 11Задача на Python
c1ccc(c(c1)C(=O)O)O
Salicylic acid
C1=CC(=C(C=C1N)O)C(=O)O
PASA

Слайд 14Сложности..
У нас есть список из 5 молекул (1 – 5). Нужно рассчитать

коэфф. Танимото для каждой пары из молекул без повторений.
[1 2 3 4 5 ]
1 – 2, 1 – 3, 1 – 4, 1 – 5
2 – 3, 2 – 4, 2 – 5
3 – 4, 3 – 5,
4 – 5.
Слайд 18Расстояние
Для кластеризации необходимы:
Расстояние
Центроиды
Цель – найти оптимальные
центройды при данном
расстоянии

Слайд 19Не оптимальный
центроид
Оптимальный
центроид

Слайд 20Гиперпараметр –
Tanimoto distance cut-off
Чем больше значение расстояния –
тем больше

кластеры содержат элементов.
Тем меньше кластеров