Слайд 2Dataset
Исследование проводилось
над
датасетом, описывающим
сорта различных вин.
Таблица состоит из
150930 строк и
10 столбцов
Ссылка:
https://www.kaggle.com/zynicide/wine-reviews?select=winemag-data_first150k.csv
Слайд 3Описание набора данных
COUNTRY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – СТРАНА, ИЗ КОТОРОЙ РОДОМ ВИНО
DESCRIPTION(ОПИСАНИЕ) -
НЕСКОЛЬКО ФРАЗ ОТ СОМЕЛЬЕ, ОПИСЫВАЮЩИЕ ВКУС, ЗАПАХ, ВНЕШНИЙ ВИД ВИНА И Т. Д.
DESIGNATION(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – НАЗВАНИЕ ВИНОГРАДНИКА
POINTS(КОЛИЧЕСТВЕННАЯ ДИСКРЕТНАЯ ПЕРЕМЕННАЯ) - КОЛИЧЕСТВО БАЛЛОВ ВИНА ПО ШКАЛЕ 1-100(WINEENTHUSIAST)
PRICE(КОЛИЧЕСТВЕННАЯ ДИСКРЕТНАЯ ПЕРЕМЕННАЯ) – ЦЕНА ЗА БУТЫЛКУ ВИНА($)
PROVINCE(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – ПРОВИНЦИЯ ИЛИ ШТАТ, В КОТОРОМ ПРОИЗВОДИТСЯ ВИНО
REGION_1(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) - ВИНОДЕЛЬЧЕСКИЙ РАЙОН
REGION_2(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) - БОЛЕЕ КОНКРЕТНЫЕ РЕГИОНЫ, УКАЗАННЫЕ В ПРЕДЕЛАХ ВИНОДЕЛЬЧЕСКОЙ ЗОНЫ
VARIETY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) - СОРТ ВИНОГРАДА, ИСПОЛЬЗУЕМОГО ДЛЯ ИЗГОТОВЛЕНИЯ ВИНА
WINERY(КАТЕГОРИАЛЬНАЯ НОМИНАЛЬНАЯ ПЕРЕМЕННАЯ) – НАЗВАНИЕ ВИНОДЕЛЬНИ
Слайд 4Описание столбцов
Типы данных в столбцах
Количество пустых значений в столбцах
Слайд 5Сортировка
Для того, чтобы нам было удобнее работать с данными, отсортируем вина от
лучших к худшим(согласно рейтингу WineEnthusiast), а внутри этих значений также произведем сортировку по алфавиту для страны, в которой производится вино
Слайд 6Рассмотрим цены за бутылку вина и проверим, преобладает ли количество сортов вин,
цена которых больше 50$
На диаграмме видно, что у большинства рассмотренных сортов вин цена за бутылку менее 50$
Создадим дополнительный столбец, в котором «1» будет соответствовать вину, цена которого больше 50$, а «0» – меньше
Посчитаем точные значения
Слайд 7Построим гистограмму для того, чтобы проанализировать, в каких странах производится наибольшее количество
вин
В США производится наибольшее количество вин. Следом идет Италия, и Франция практически наравне с ней
Слайд 8Построим график, чтобы определить, какой рейтинг сортов вин преобладает в нашем датасете
У
большинства вин рейтинг WineEnthusiast около 87.5
Слайд 9Выведем срез таблицы с 5 по 15 строку и транспонируем его
Слайд 10Построим круговую диаграмму для того, чтобы определить, какой вид вин преобладает в
нашем датасете: с рейтингом более или менее 90 баллов
У большинства вин рейтинг WineEnthusiast
меньше 90 баллов
Слайд 11Создадим сводную таблицу, в которой будет отражено, сколько сортов вин производится в
каждой из стран
Наименьшее количество вин создается в Албании, Китае, Египте, Японии, Черногории и Тунисе
Слайд 12В данной сводной таблице отразим количество видов вин, создаваемых в винодельне того
или иного винодельческого района
Наибольшее количество вин производится в винодельнях D’Arenberg и Longview
Слайд 13В данном графике отразим, сколько сортов вин производится в том или ином
винодельческом регионе(стоит отметить, что здесь рассматривались данные из region_2, т.е. более конкретные места)
В Калифорнии и Южном Орегоне производится наибольшее количество вин
Слайд 14Создадим сводную таблицу, в которой будет отражено количество видов вин определенной цены,
производимых из того или иного сорта винограда
У большинства сортов существует только один вид вина, соответствующий той или иной цене
Слайд 15Выводы
У БОЛЬШИНСТВА ВИН ЦЕНА ЗА БУТЫЛКУ МЕНЕЕ 50$
В США ПРОИЗВОДИТСЯ НАИБОЛЬШЕЕ КОЛИЧЕСТВО
ВИДОВ ВИН. СЛЕДОМ ИДЕТ ИТАЛИЯ, И ФРАНЦИЯ ПРАКТИЧЕСКИ НАРАВНЕ С НЕЙ
У БОЛЬШИНСТВА ВИН РЕЙТИНГ WINEENTHUSIAST МЕНЬШЕ 90 БАЛЛОВ
НАИМЕНЬШЕЕ КОЛИЧЕСТВО ВИН СОЗДАЕТСЯ В АЛБАНИИ, КИТАЕ, ЕГИПТЕ, ЯПОНИИ, ЧЕРНОГОРИИ И В ТУНИСЕ
НАИБОЛЬШЕЕ КОЛИЧЕСТВО ВИН ПРОИЗВОДИТСЯ В ВИНОДЕЛЬНЯХ D’ARENBERG И LONGVIEW
В КАЛИФОРНИИ И ЮЖНОМ ОРЕГОНЕ ПРОИЗВОДИТСЯ НАИБОЛЬШЕЕ КОЛИЧЕСТВО ВИН
У БОЛЬШИНСТВА СОРТОВ СУЩЕСТВУЕТ ТОЛЬКО ОДИН СОРТ ВИНА, СООТВЕТСТВУЮЩИЙ ТОЙ ИЛИ ИНОЙ ЦЕНЕ
У БОЛЬШИНСТВА ВИН РЕЙТИНГ WINEENTHUSIAST ОКОЛО 87.5