Анализ данных. Виды данных

Содержание

Слайд 2

Основные виды данных


Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Данные, представляемые для анализа,

Основные виды данных Анализ данных. Виды данных Кафедра информационно-аналитических систем Данные, представляемые
могут быть весьма разнообразного вида: от простых фактоидов (результатов чьего-то анализа) до «сырых» транзакций, изучение которых целиком и полностью является задачей аналитика.

Слайд 3

Анализ данных. Виды данных

Фактоид

Кафедра информационно-аналитических систем

Фактоид − это часть общей информации. Фактоид

Анализ данных. Виды данных Фактоид Кафедра информационно-аналитических систем Фактоид − это часть
рассчитывается из исходных (сырых) данных и акцентирует внимание на конкретной детали.
Пример: 36.7% кофе в 2000 году потребили женщины.

Слайд 4

Анализ данных. Виды данных

Ряд (series)

Кафедра информационно-аналитических систем

Ряд - это когда один вид

Анализ данных. Виды данных Ряд (series) Кафедра информационно-аналитических систем Ряд - это
информации (зависимая переменная) сопоставляется другому виду информации (независимая переменная). Информация, соответствующая зависимой переменной может носить агрегированный характер.

В примере независимая переменная – температура воды, зависимая переменная – время, необходимое взрослому человеку для получения ожога 1 степени

Слайд 5

Анализ данных. Виды данных

Временной ряд (time series)

Кафедра информационно-аналитических систем

Ряд называется временным, если

Анализ данных. Виды данных Временной ряд (time series) Кафедра информационно-аналитических систем Ряд
в качестве независимой переменной выступает время.

В этом примере общее количество проданного кофе зависит от года. Поэтому год − это независимая переменная («выберите год, любой год»), а количество продаж − зависимая («в этом году потребление кофе составляет 23,005 чашек»).

Слайд 6

Визуализация рядов

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Ряды удобно отображать в виде столбчатой

Визуализация рядов Анализ данных. Виды данных Кафедра информационно-аналитических систем Ряды удобно отображать в виде столбчатой диаграммы:
диаграммы:

Слайд 7

Многоряды

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

В многорядных данных есть несколько единиц

Многоряды Анализ данных. Виды данных Кафедра информационно-аналитических систем В многорядных данных есть
зависимой информации и одна единица независимой информации.
Расширенный пример с ожогами:

Здесь температура – независимая переменная, ожоги (1, 2 и 3 степени) – зависимая.

Слайд 8

Многоряды (пример с кофе)

С таким набором данных мы знаем несколько фактов,

Многоряды (пример с кофе) С таким набором данных мы знаем несколько фактов,
например, о 2001 годе. Мы знаем, что 16452 чашек было продано мужчинам, и что было продано 14021 чашка обычного кофе (с кофеином, сливками/молоком и сахаром). Однако мы не знаем, как объединить эти данные в практических целях: они абсолютно не связаны между собой. Мы не можем сказать, какой процент обычного кофе был продан мужчинам или сколько чашек досталось женщинам.

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Слайд 9

Визуализация многорядов

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Мы можем показывать многоряды вместе,

Визуализация многорядов Анализ данных. Виды данных Кафедра информационно-аналитических систем Мы можем показывать
но не можем проагрегировать или объединить их так, чтобы это имело смысл.

Слайд 10

Суммируемые многоряды

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Как следует из названия, суммируемые многоряды

Суммируемые многоряды Анализ данных. Виды данных Кафедра информационно-аналитических систем Как следует из
− это отдельный показатель (пол, вид кофе), разбитый на подгруппы.

Поскольку мы знаем, что потребитель кофе может быть либо мужчиной, либо женщиной, то можем объединить эти показатели, чтобы получить более широкое видение потребления в целом за отдельный год или весь период наблюдения в целом.

Слайд 11

Визуализация суммируемых многорядов

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Прежде всего, мы можем продемонстрировать

Визуализация суммируемых многорядов Анализ данных. Виды данных Кафедра информационно-аналитических систем Прежде всего,
процентное соотношение:

Слайд 12

Визуализация суммируемых многорядов

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Кроме того, мы можем сложить

Визуализация суммируемых многорядов Анализ данных. Виды данных Кафедра информационно-аналитических систем Кроме того,
сегменты суммируемого многоряда и показать целостную картину:

Слайд 13

Проблемы суммируемых многорядов


Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Сложность при работе

Проблемы суммируемых многорядов Анализ данных. Виды данных Кафедра информационно-аналитических систем Сложность при
с суммируемыми многорядами заключается в том, что необходимо точно знать, какие ряды совместимы друг с другом.
Например, в одной таблице может оказаться следующая информация:

В этих данных нет ничего, что дало бы нам возможность объединить всю информацию. Необходимо человеческое понимание категорий данных, чтобы знать, что мужчины + женщины = полный набор, а также обычный кофе + кофе без кофеина + мокко = полный набор. Без этого знания мы не можем объединить данные или, что еще хуже, можем объединить их неправильно.

Слайд 14

Анализ данных. Виды данных

Агрегированные записи

Кафедра информационно-аналитических систем

Следующая таблица с агрегированными записями

Анализ данных. Виды данных Агрегированные записи Кафедра информационно-аналитических систем Следующая таблица с
включает колонку с категориальной информацией (пол, с двумя возможными вариантами) и промежуточные суммы для каждого типа кофе. Кроме того, в нее входят итоговые суммы для этих типов.

Слайд 15

Анализ данных. Виды данных

Визуализация результатов агрегирования

Кафедра информационно-аналитических систем

Анализ данных. Виды данных Визуализация результатов агрегирования Кафедра информационно-аналитических систем

Слайд 16

Отдельные транзакции

Анализ данных. Виды данных

Кафедра информационно-аналитических систем

Транзакционные (<сырые>) записи представляют собой данные

Отдельные транзакции Анализ данных. Виды данных Кафедра информационно-аналитических систем Транзакционные ( )
о конкретных событиях. Здесь нет агрегации данных вокруг какого-либо параметра. Данные не накапливают во времени, они одномоментны. Но именно они и представляют наибольший интерес для аналитиков. Пример:

Слайд 17

Основные источники данных – подведем итог

фактоиды
ряды
временные ряды
многоряды
суммируемые многоряды
агрегированные записи
отдельные

Основные источники данных – подведем итог фактоиды ряды временные ряды многоряды суммируемые
транзакции

Анализ данных. Виды данных

Кафедра информационно-аналитических систем