Data Science

Содержание

Слайд 2

Постановка задачи:

Цель решения задачи: прогнозировать характеристики композиционного материала на основе имеющихся данных.
Входные

Постановка задачи: Цель решения задачи: прогнозировать характеристики композиционного материала на основе имеющихся
данные:
- общее описание свойств композиционного материала
- два датасета, которые содержат данные о количественных характеристиках различных свойств и составляющих композитного материала. Всего 13 характеристик.
- постановка задач для решения с помощью методов машинного обучения:
решение задачи регрессии для прогнозирования двух из 13 представленных характеристик
разработка рекомендательной системы (задача регрессии) для прогнозирования показателя «Соотношение матрица-наполнитель»

Слайд 3

1 Этап. Изучение и описание датасета

Входные переменные:
Соотношение матрица-наполнитель
Плотность, кг/м3
Модуль упругости, Гпа
Количество

1 Этап. Изучение и описание датасета Входные переменные: Соотношение матрица-наполнитель Плотность, кг/м3
отвердителя, м
Содержание эпоксидных групп,%_2
Температура вспышки, С_2
Поверхностная плотность, г/м2
Модуль упругости при растяжении, Гпа
Прочность при растяжении, Мпа
Потребление смолы, г/м2
Угол нашивки, град
Шаг нашивки
Плотность

Выходные переменные (исключаются в момент решения задачи из входных):
Задача регрессии 1:
Модуль упругости при растяжении, Гпа
Задача регрессии 2:
Прочность при растяжении, Мпа
Разработка рекомендательной системы:
Соотношение матрица-наполнитель
Первый шаг в обработке данных:
Объединение датасетов по индексу с отсечением последних 17 строк второго датасета

Слайд 4

2 Этап. Разведочный анализ данных

Использованы методы описательной статистики.
Метод describe(). Выявлена одна дискретная

2 Этап. Разведочный анализ данных Использованы методы описательной статистики. Метод describe(). Выявлена
величина, отсутствие пропусков в данных.
Нормальное распределение Распределение со смещением вправо

Слайд 5

2 Этап. Разведочный анализ данных

Поиск выбросов и правило трех сигм

2 Этап. Разведочный анализ данных Поиск выбросов и правило трех сигм

Слайд 6

2 Этап. Разведочный анализ данных Тепловая карта коэффициентов корреляции

2 Этап. Разведочный анализ данных Тепловая карта коэффициентов корреляции

Слайд 7

3. Этап. Предобработка данных

1. Расчет количества выбросов и удаление выбросов
2. Нормализация и

3. Этап. Предобработка данных 1. Расчет количества выбросов и удаление выбросов 2.
стандартизация данных
3. Выявление внутренних невидимых факторов, которые будут влиять на модель с помощью метода главных компонент и факторного анализа
Пример факторного анализа на 4 фактора:

Слайд 8

4 Этап. Решение задачи регрессии

Разделение выборки на обучающую и тестовую:
X_train, X_test, y_train,

4 Этап. Решение задачи регрессии Разделение выборки на обучающую и тестовую: X_train,
y_test = train_test_split(X, y, test_size=0.3, random_state=1)
Линейная регрессия:
model_LN_1 = LinearRegression()
model_LN_1.fit(X_train, y_train)
y_pred = model_LN_1.predict(X_test)

Слайд 9

4 Этап. Решение задачи регрессии

Случайный лес:
random_forest_tuning = RandomForestRegressor(random_state = 42)
param_grid = {

4 Этап. Решение задачи регрессии Случайный лес: random_forest_tuning = RandomForestRegressor(random_state = 42)
'n_estimators': [20, 40, 60],
'max_features': ['auto', 'sqrt', 'log2'],
'max_depth' : [3,4,5,6]
}
GSCV = GridSearchCV(estimator=random_forest_tuning, param_grid=param_grid,
cv=10, verbose=0)
GSCV.fit(X_train, y_train)
GSCV.best_params_

Слайд 10

5 Этап. Оценка качества моделей для задачи регрессии

Средняя абсолютная ошибка:
Коэффициент детерминации:

 

5 Этап. Оценка качества моделей для задачи регрессии Средняя абсолютная ошибка: Коэффициент детерминации:

Слайд 11

Этап 6. Решение задачи по разработке рекомендательной модели с использованием нейронных сетей

Многослойный

Этап 6. Решение задачи по разработке рекомендательной модели с использованием нейронных сетей
персептрон:
def build_and_compile_model(norm):
model = keras.Sequential([
norm,
layers.Dense(256, activation='relu'),
layers.Dense(256, activation='relu'),
layers.Dense(64, activation='linear'),
layers.Dense(1)
])
model.compile(loss='mean_squared_error',
optimizer=tf.keras.optimizers.Adam(0.0001))
return model

Гиперпараметры модели:
- количество скрытых слоев
- количество нейронов на слое
- активационная функция
- количество нейронов на выходном слое
- оптимизатор
- метрика оценки качества
Так же задается количество эпох

Слайд 12

Этап 7. Оценка качества модели

Изменение MSE за время обучения модели

Распределение ошибки (test

Этап 7. Оценка качества модели Изменение MSE за время обучения модели Распределение
predictions – y test)

Слайд 13

Этап 8. Разработка приложения для рекомендательной системы. Интерпретатор Flask

http://127.0.0.1:5000/start1

Этап 8. Разработка приложения для рекомендательной системы. Интерпретатор Flask http://127.0.0.1:5000/start1

Слайд 14

Этап 9. Создание репозитория. Выгрузка через Git

Репозиторий на GitLab

Репозиторий на рабочем компьютере

Этап 9. Создание репозитория. Выгрузка через Git Репозиторий на GitLab Репозиторий на рабочем компьютере
Имя файла: Data-Science.pptx
Количество просмотров: 43
Количество скачиваний: 1