Слайд 2Data Science — это работа с большими данными (англ. Big Data).
1 ZB = 10^21 bytes
1 TB =
![Data Science — это работа с большими данными (англ. Big Data). 1](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-1.jpg)
10^12 bytes
Слайд 3Эволюция в
области
хранения и
Обработки
данных
![Эволюция в области хранения и Обработки данных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-2.jpg)
Слайд 5Классификация
Регрессия
Кластеризация
![Классификация Регрессия Кластеризация](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-4.jpg)
Слайд 6Независимые переменные
Зависимая
![Независимые переменные Зависимая](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-5.jpg)
Слайд 7Тренировочные данные, независимые данные.
Тестовые данные
Независимые переменные
зависимые
зависимые
Исходные данные
Модель МО
Тестовые данные
Независимые переменные
Тренировочные данные,
![Тренировочные данные, независимые данные. Тестовые данные Независимые переменные зависимые зависимые Исходные данные](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-6.jpg)
независимые данные.
зависимые
зависимые
VS
Слайд 11Задача на Python
c1ccc(c(c1)C(=O)O)O
Salicylic acid
C1=CC(=C(C=C1N)O)C(=O)O
PASA
![Задача на Python c1ccc(c(c1)C(=O)O)O Salicylic acid C1=CC(=C(C=C1N)O)C(=O)O PASA](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-10.jpg)
Слайд 14Сложности..
У нас есть список из 5 молекул (1 – 5). Нужно рассчитать
![Сложности.. У нас есть список из 5 молекул (1 – 5). Нужно](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-13.jpg)
коэфф. Танимото для каждой пары из молекул без повторений.
[1 2 3 4 5 ]
1 – 2, 1 – 3, 1 – 4, 1 – 5
2 – 3, 2 – 4, 2 – 5
3 – 4, 3 – 5,
4 – 5.
Слайд 18Расстояние
Для кластеризации необходимы:
Расстояние
Центроиды
Цель – найти оптимальные
центройды при данном
расстоянии
![Расстояние Для кластеризации необходимы: Расстояние Центроиды Цель – найти оптимальные центройды при данном расстоянии](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-17.jpg)
Слайд 19Не оптимальный
центроид
Оптимальный
центроид
![Не оптимальный центроид Оптимальный центроид](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-18.jpg)
Слайд 20Гиперпараметр –
Tanimoto distance cut-off
Чем больше значение расстояния –
тем больше
![Гиперпараметр – Tanimoto distance cut-off Чем больше значение расстояния – тем больше](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/904494/slide-19.jpg)
кластеры содержат элементов.
Тем меньше кластеров