Анализ данных по теме Wine Reviews

Содержание

Слайд 2

Dataset

Исследование проводилось
над
датасетом, описывающим
сорта различных вин.
Таблица состоит из
150930 строк и
10 столбцов
Ссылка:

Dataset Исследование проводилось над датасетом, описывающим сорта различных вин. Таблица состоит из
https://www.kaggle.com/zynicide/wine-reviews?select=winemag-data_first150k.csv

Слайд 3

Описание набора данных

COUNTRY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – СТРАНА, ИЗ КОТОРОЙ РОДОМ ВИНО
DESCRIPTION(ОПИСАНИЕ) -

Описание набора данных COUNTRY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – СТРАНА, ИЗ КОТОРОЙ РОДОМ ВИНО
НЕСКОЛЬКО ФРАЗ ОТ СОМЕЛЬЕ, ОПИСЫВАЮЩИЕ ВКУС, ЗАПАХ, ВНЕШНИЙ ВИД ВИНА И Т. Д.
DESIGNATION(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – НАЗВАНИЕ ВИНОГРАДНИКА
POINTS(КОЛИЧЕСТВЕННАЯ ДИСКРЕТНАЯ ПЕРЕМЕННАЯ) - КОЛИЧЕСТВО БАЛЛОВ ВИНА ПО ШКАЛЕ 1-100(WINEENTHUSIAST)
PRICE(КОЛИЧЕСТВЕННАЯ ДИСКРЕТНАЯ ПЕРЕМЕННАЯ) – ЦЕНА ЗА БУТЫЛКУ ВИНА($)
PROVINCE(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – ПРОВИНЦИЯ ИЛИ ШТАТ, В КОТОРОМ ПРОИЗВОДИТСЯ ВИНО
REGION_1(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) - ВИНОДЕЛЬЧЕСКИЙ РАЙОН
REGION_2(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) - БОЛЕЕ КОНКРЕТНЫЕ РЕГИОНЫ, УКАЗАННЫЕ В ПРЕДЕЛАХ ВИНОДЕЛЬЧЕСКОЙ ЗОНЫ
VARIETY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) - СОРТ ВИНОГРАДА, ИСПОЛЬЗУЕМОГО ДЛЯ ИЗГОТОВЛЕНИЯ ВИНА
WINERY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – НАЗВАНИЕ ВИНОДЕЛЬНИ

Слайд 4

Описание столбцов

Типы данных в столбцах

Количество пустых значений в столбцах

Описание столбцов Типы данных в столбцах Количество пустых значений в столбцах

Слайд 5

Сортировка

Для того, чтобы нам было удобнее работать с данными, отсортируем вина от

Сортировка Для того, чтобы нам было удобнее работать с данными, отсортируем вина
лучших к худшим(согласно рейтингу WineEnthusiast), а внутри этих значений также произведем сортировку по алфавиту для страны, в которой производится вино

Слайд 6

Рассмотрим цены за бутылку вина и проверим, преобладает ли количество сортов вин,

Рассмотрим цены за бутылку вина и проверим, преобладает ли количество сортов вин,
цена которых больше 50$
На диаграмме видно, что у большинства рассмотренных сортов вин цена за бутылку менее 50$
Создадим дополнительный столбец, в котором «1» будет соответствовать вину, цена которого больше 50$, а «0» – меньше
Посчитаем точные значения

Слайд 7

Построим гистограмму для того, чтобы проанализировать, в каких странах производится наибольшее количество

Построим гистограмму для того, чтобы проанализировать, в каких странах производится наибольшее количество
вин
В США производится наибольшее количество вин. Следом идет Италия, и Франция практически наравне с ней

Слайд 8

Построим график, чтобы определить, какой рейтинг сортов вин преобладает в нашем датасете
У

Построим график, чтобы определить, какой рейтинг сортов вин преобладает в нашем датасете
большинства вин рейтинг WineEnthusiast около 87.5

Слайд 9

Выведем срез таблицы с 5 по 15 строку и транспонируем его

Выведем срез таблицы с 5 по 15 строку и транспонируем его

Слайд 10

Построим круговую диаграмму для того, чтобы определить, какой вид вин преобладает в

Построим круговую диаграмму для того, чтобы определить, какой вид вин преобладает в
нашем датасете: с рейтингом более или менее 90 баллов
У большинства вин рейтинг WineEnthusiast
меньше 90 баллов

Слайд 11

Создадим сводную таблицу, в которой будет отражено, сколько сортов вин производится в

Создадим сводную таблицу, в которой будет отражено, сколько сортов вин производится в
каждой из стран
Наименьшее количество вин создается в Албании, Китае, Египте, Японии, Черногории и Тунисе

Слайд 12

В данной сводной таблице отразим количество видов вин, создаваемых в винодельне того

В данной сводной таблице отразим количество видов вин, создаваемых в винодельне того
или иного винодельческого района
Наибольшее количество вин производится в винодельнях D’Arenberg и Longview

Слайд 13

В данном графике отразим, сколько сортов вин производится в том или ином

В данном графике отразим, сколько сортов вин производится в том или ином
винодельческом регионе(стоит отметить, что здесь рассматривались данные из region_2, т.е. более конкретные места)
В Калифорнии и Южном Орегоне производится наибольшее количество вин

Слайд 14

Создадим сводную таблицу, в которой будет отражено количество видов вин определенной цены,

Создадим сводную таблицу, в которой будет отражено количество видов вин определенной цены,
производимых из того или иного сорта винограда
У большинства сортов существует только один вид вина, соответствующий той или иной цене

Слайд 15

Выводы

У БОЛЬШИНСТВА ВИН ЦЕНА ЗА БУТЫЛКУ МЕНЕЕ 50$
В США ПРОИЗВОДИТСЯ НАИБОЛЬШЕЕ КОЛИЧЕСТВО

Выводы У БОЛЬШИНСТВА ВИН ЦЕНА ЗА БУТЫЛКУ МЕНЕЕ 50$ В США ПРОИЗВОДИТСЯ
ВИДОВ ВИН. СЛЕДОМ ИДЕТ ИТАЛИЯ, И ФРАНЦИЯ ПРАКТИЧЕСКИ НАРАВНЕ С НЕЙ
У БОЛЬШИНСТВА ВИН РЕЙТИНГ WINEENTHUSIAST МЕНЬШЕ 90 БАЛЛОВ
НАИМЕНЬШЕЕ КОЛИЧЕСТВО ВИН СОЗДАЕТСЯ В АЛБАНИИ, КИТАЕ, ЕГИПТЕ, ЯПОНИИ, ЧЕРНОГОРИИ И В ТУНИСЕ
НАИБОЛЬШЕЕ КОЛИЧЕСТВО ВИН ПРОИЗВОДИТСЯ В ВИНОДЕЛЬНЯХ D’ARENBERG И LONGVIEW
В КАЛИФОРНИИ И ЮЖНОМ ОРЕГОНЕ ПРОИЗВОДИТСЯ НАИБОЛЬШЕЕ КОЛИЧЕСТВО ВИН
У БОЛЬШИНСТВА СОРТОВ СУЩЕСТВУЕТ ТОЛЬКО ОДИН СОРТ ВИНА, СООТВЕТСТВУЮЩИЙ ТОЙ ИЛИ ИНОЙ ЦЕНЕ
У БОЛЬШИНСТВА ВИН РЕЙТИНГ WINEENTHUSIAST ОКОЛО 87.5