Введение в большие данные

Содержание

Слайд 2

Введение

2

https://www.slanecartoon.com/-/galleries/privacy-1/-/medias/f882b7b9-5893-4572-99f1-1c17c7ebbe81-data-mine/share

Введение 2 https://www.slanecartoon.com/-/galleries/privacy-1/-/medias/f882b7b9-5893-4572-99f1-1c17c7ebbe81-data-mine/share

Слайд 3

Понятие больших данных и области применения

15

Большие данные (Big Data, биг дата) — это

Понятие больших данных и области применения 15 Большие данные (Big Data, биг
структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределено анализировать информацию.

Слайд 4

Понятие больших данных и области применения

16

Клиффорд Линч, 2008

Понятие больших данных и области применения 16 Клиффорд Линч, 2008

Слайд 5

Business Intelligence

17

Business Intelligence = BI = Бизнес – аналитика (rus) — это

Business Intelligence 17 Business Intelligence = BI = Бизнес – аналитика (rus)
набор IT-технологий для сбора, хранения и анализа данных, позволяющих предоставлять пользователям достоверную аналитику в удобном формате, на основе которой можно принимать эффективные решения для управления бизнес-процессами компании.

Слайд 6

Разница подходов

18

Разница подходов 18

Слайд 7

Функции и задачи больших данных

19

Правило VVV — три признака или свойства, которыми

Функции и задачи больших данных 19 Правило VVV — три признака или
большие данные должны обладать:

Volume – объем
Velocity – скорость
Variety - многообразие

Слайд 8

Функции и задачи больших данных

20

Функции и задачи больших данных 20

Слайд 9

Источники больших данных

21
Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (IoT).
Корпоративные данные —

Источники больших данных 21 Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет
транзакционная деловая информация, архивы, базы данных.
Показания устройств — датчиков, приборов, а также метеорологические данные, данные сотовой связи и т.д. -

Слайд 10

Принципы функционирования систем больших данных

22

Горизонтальная масштабируемость
Отказоустойчивость
Локальность данных

Принципы функционирования систем больших данных 22 Горизонтальная масштабируемость Отказоустойчивость Локальность данных

Слайд 11

Что можно сделать с помощью больших данных?

23

Предсказать победителя Оскара!

Что можно сделать с помощью больших данных? 23 Предсказать победителя Оскара!

Слайд 12

Что можно сделать с помощью больших данных?

24

Найти военную базу НАТО

Что можно сделать с помощью больших данных? 24 Найти военную базу НАТО

Слайд 13

Что можно сделать с помощью больших данных?

25

Диагностировать беременность

Что можно сделать с помощью больших данных? 25 Диагностировать беременность

Слайд 14

Области применения технологий больших данных

26

Анализ данных опросов:
 - Мониторинг общественного мнения и

Области применения технологий больших данных 26 Анализ данных опросов: - Мониторинг общественного
анализ социально-
экономической ситуации
- Определение проблем, формирующих кризисную ситуацию
- Анализ реакции населения на внедрение различных федеральных и
региональных программ
- Анализ экономического положения и уровня жизни населения

Слайд 15

Области применения технологий больших данных

27

Предвыборные исследования
- Анализ эффективности политической рекламы
- Анализ средств

Области применения технологий больших данных 27 Предвыборные исследования - Анализ эффективности политической
массовой информации
- Выявление наиболее эффективных средств влияния на мнения
различных групп избирателей
- Диагностика предвыборной ситуации
- Анализ основных проблем избирателей

Слайд 16

Области применения технологий больших данных

28

Общественная безопасность
- Анализ преступности
- Отслеживание уровня рецидивизма

Области применения технологий больших данных 28 Общественная безопасность - Анализ преступности - Отслеживание уровня рецидивизма

Слайд 17

Области применения технологий больших данных

29

Образование
- Планирование школьных округов
- Отслеживание успеваемости учащихся,

Области применения технологий больших данных 29 Образование - Планирование школьных округов -
выявление факторов
способствующих повышению успеваемости
- Администрирование - контроль за уровнем выполнения
обязательных программ и тестов.

Слайд 18

Области применения технологий больших данных

30

Трудоустройство
- Анализ рынка труда - понимание состава и

Области применения технологий больших данных 30 Трудоустройство - Анализ рынка труда -
структуры рабочей силы
- Анализ заявлений о приеме на работу - разработка профилей претендентов.

Слайд 19

Области применения технологий больших данных

31

Анализ прибыли
 - Оценка соответствия размеров уплаченных налогов и

Области применения технологий больших данных 31 Анализ прибыли - Оценка соответствия размеров
имущества
- Анализ мошенничеств

Слайд 20

Области применения технологий больших данных

32

Здравоохранение
- Отслеживание болезней и создание отчетов о

Области применения технологий больших данных 32 Здравоохранение - Отслеживание болезней и создание
случаях заболеваний
- Эпидемиология - выявление причин заболеваний и территории их
распространения, а также контроль заболеваемости
- Медицинская помощь - определение профилей тех, кому часто
требуется медицинская помощь
- Профилактика - выявление групп риска и необходимости
медицинского вмешательства.

Слайд 21

Области применения технологий больших данных

33

Окружающая среда
- Анализ экосистем - выяснение факторов, влияющих

Области применения технологий больших данных 33 Окружающая среда - Анализ экосистем -
на здоровье
экосистемы
- Оценка качества воды/воздуха - осуществление контроля за
соответствием качества вод или воздуха имеющимся стандартам.

Слайд 22

Области применения технологий больших данных

34

Транспорт
- Планирование наиболее эффективных маршрутов для лучшей
организации транспортных

Области применения технологий больших данных 34 Транспорт - Планирование наиболее эффективных маршрутов
и пассажирских потоков
- Создание отчетов о дорожных происшествиях для выяснения
факторов, влияющих на происшествия
- Моделирование программ поддержания надлежащего состояния
дорожного покрытия, прогнозирование возможного ремонта дорог.

Слайд 23

Области применения технологий больших данных

35

Стратегическое планирование
- Анализ удовлетворенности клиентов и изучения изменений

Области применения технологий больших данных 35 Стратегическое планирование - Анализ удовлетворенности клиентов
потребностей общественности
- Оценка программ - понимание факторов успешной реализации программы
- Профилирование населения - более эффективное направление действия программы на определенные слои населения
- Анализ затрат - выявления наиболее эффективных программ
- Анализ результатов выполнения программ

Слайд 24

Технологии больших данных в маркетинге

40

Создание точных портретов целевых потребителей.
Предсказание реакции потребителей на маркетинговые

Технологии больших данных в маркетинге 40 Создание точных портретов целевых потребителей. Предсказание
сообщения.
Максимальная персонализация рекламных сообщений.
Увеличение кросс-продаж, повторных продаж, ремаркетинга.
Поиск и определение причин популярности востребованных товаров и продуктов.
Совершенствование продуктов и услуг, повышение лояльности клиентов.
Повышение качества обслуживания.
Предупреждение мошенничества.
Снижение издержек в работе с поставщиками и клиентами.

Слайд 25

Большие данные в бизнесе

36

Поставщики инфраструктуры — решают задачи хранения и предобработки данных.

Большие данные в бизнесе 36 Поставщики инфраструктуры — решают задачи хранения и

Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения.
Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента.
Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов.

Слайд 26

Поисковые системы

37

Поисковые системы 37

Слайд 27

Выгоды использования Big Data в бизнесе

38

Упрощается планирование.
Увеличивается скорость запуска новых

Выгоды использования Big Data в бизнесе 38 Упрощается планирование. Увеличивается скорость запуска
проектов.
Повышаются шансы проекта на востребованность.
Можно оценить степень удовлетворенности пользователей.
Проще найти и привлечь целевую аудиторию.
Ускоряется взаимодействие с клиентами и контрагентами.
Оптимизируются интеграции в цепи поставок.
Повышается качество клиентского сервиса, скорость взаимодействия.
Повышается лояльность текущих клиентов.

Слайд 28

Драйверы и ограничители Big Data в России

39

Драйверы и ограничители Big Data в России 39

Слайд 29

Сервисы Big Data

41

«1С-Битрикс BigData»

Сервисы Big Data 41 «1С-Битрикс BigData»

Слайд 30

Сервисы Big Data

42

RTB Media

Сервисы Big Data 42 RTB Media

Слайд 31

Сервисы Big Data

43

Alytics

Сервисы Big Data 43 Alytics

Слайд 32

Сервисы Big Data

44

Crossss

Сервисы Big Data 44 Crossss

Слайд 33

Технологии Больших данных:

45
NoSQL;
MapReduce;
Hadoop;
R;
Python;
Аппаратные решения.

Технологии Больших данных: 45 NoSQL; MapReduce; Hadoop; R; Python; Аппаратные решения.

Слайд 34

Методы и техники анализа Больших данных

46

Основными методами и техниками анализа, применимыми к

Методы и техники анализа Больших данных 46 Основными методами и техниками анализа,
Большим данным, являются следующие:
Методы класса Data Mining
Краудсорсинг
Смешение и интеграция данных
Машинное обучение
Визуализация аналитических данных

Слайд 35

Data Mining

Data Mining

Слайд 36

Data Mining

48

Data Mining – это сочетание широкого математического инструментария (от классического статистического

Data Mining 48 Data Mining – это сочетание широкого математического инструментария (от
анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Термин введён
Григорием Пятецким-Шапиро
в 1989 году.

Слайд 37

Data Mining

49

Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук

Data Mining 49 Data Mining - мультидисциплинарная область, возникшая и развивающаяся на
как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных

Слайд 38

Модели представления знаний Data Mining

50

Модели представления знаний Data Mining 50

Слайд 39

Обзор существующих методов Data Mining

51

искусственные нейронные сети
деревья решений, символьные правила

Обзор существующих методов Data Mining 51 искусственные нейронные сети деревья решений, символьные
методы ближайшего соседа и k-ближайшего соседа
метод опорных векторов
байесовские сети
линейная регрессия
корреляционно-регрессионный анализ
иерархические методы кластерного анализа
неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
эволюционное программирование и генетические алгоритмы
метод ограниченного перебора
эволюционное программирование и генетические алгоритмы
разнообразные методы визуализации данных и множество других методов.

Слайд 40

Свойства методов Data Mining

52

точность
масштабируемость
интерпретируемость
проверяемость
трудоемкость
гибкость
быстрота
популярность

Свойства методов Data Mining 52 точность масштабируемость интерпретируемость проверяемость трудоемкость гибкость быстрота популярность

Слайд 41

Свойства методов Data Mining

53

Свойства методов Data Mining 53

Слайд 42

Классификация методов Data Mining

54

Классификация методов Data Mining 54

Слайд 43

Подход к обучению математических моделей Data Mining

55

Статистические методы Data Mining

Кибернетические методы Data

Подход к обучению математических моделей Data Mining 55 Статистические методы Data Mining Кибернетические методы Data Mining
Mining

Слайд 44

Классификация по задачам

56

Описательные методы

Прогнозирующие методы

Классификация по задачам 56 Описательные методы Прогнозирующие методы

Слайд 45

Мнение экспертов о Data Mining

57

Aberdeen Group: " Data Mining - технология добычи полезной информации

Мнение экспертов о Data Mining 57 Aberdeen Group: " Data Mining -
из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров.

Herb Edelstein: «Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается».

Слайд 46

Проблемы, ограничения и критические вопросы Data Mining

58

Data Mining не может заменить аналитика
Сложность разработки

Проблемы, ограничения и критические вопросы Data Mining 58 Data Mining не может
и эксплуатации приложения Data Mining
Квалификация пользователя
Извлечение полезных сведений невозможно без хорошего понимания сути данных
Сложность подготовки данных
Большой процент ложных, недостоверных или бессмысленных результатов
Высокая стоимость
Наличие достаточного количества репрезентативных данных

Слайд 47

Перспективы технологии Data Mining

59

• выделение типов предметных областей с соответствующими им эвристиками,

Перспективы технологии Data Mining 59 • выделение типов предметных областей с соответствующими
формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям;
• создание формальных языков и логических средств, с помощью которых будут формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях;
• создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные ;
• преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области

Слайд 48

Data Mining
Области, где применения технологии Data Mining, скорее всего, будут успешными, имеют

Data Mining Области, где применения технологии Data Mining, скорее всего, будут успешными,
такие особенности:
- требуют решений, основанных на знаниях ;
- имеют изменяющуюся окружающую среду;
- имеют доступные, достаточные и значимые данные ;
- обеспечивают высокие дивиденды от правильных решений.

60

Слайд 49

Data Mining

61

Международная конференция по Knowledge Discovery Data Mining (International Conferences on

Data Mining 61 Международная конференция по Knowledge Discovery Data Mining (International Conferences
Knowledge Discovery and Data Mining).
Среди наиболее известных WWW-источников - сайт www.kdnuggets.com , который ведет один из основателей Data Mining Григорий Пиатецкий-Шапиро.
Периодические издания по Data Mining: Data Mining and Knowledge Discovery, KDD Explorations, ACM-TODS, IEEE-TKDE, JIIS, J. ACM, Machine Learning, Artificial Intelligence.
Материалы конференций: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, Machine learning (ICML), AAAI, IJCAI, COLT (Learning Theory).

Слайд 50

Краудсорсинг

Краудсорсинг

Слайд 51

Краудсорсинг

63

Краудсорсинг — привлечение к решению какой-либо проблемы большой группы людей

В 2003

Краудсорсинг 63 Краудсорсинг — привлечение к решению какой-либо проблемы большой группы людей
году Луис фон Ах (Luis von Ahn) вместе со своими коллегами впервые предложил понятие "человеческих вычислений

в 2006 году термин "Краудсорсинг" (crowdsourcing) был сформулирован редактором журнала "Wired" Джеффом Хау (Jeff Howe)

Слайд 52

Краудсорсинг

64

Краудсорсинг - это мобилизация ресурсов людей посредством информационных технологий с целью

Краудсорсинг 64 Краудсорсинг - это мобилизация ресурсов людей посредством информационных технологий с
решения задач, стоящих перед бизнесом, государством и обществом в целом.

Слайд 53

Классификация Краудсорсинга*

65

I. По сфере жизни (бизнес, социальный, политический)
II. По типу решаемых

Классификация Краудсорсинга* 65 I. По сфере жизни (бизнес, социальный, политический) II. По
задач (создание продукта (контента), голосование, поиск решения, поиск людей, сбор информации, сбор мнений, тестирование, служба поддержки, сбор средств - Краудфандинг).

Классификация Краудсорсинга*
*http://crowdsourcing.ru/article/what_is_the_crowdsourcing

Слайд 54

Классификация Краудсорсинга

66

 По сфере жизни:
Бизнес
2) Социальный или общественный
3) Политический или государственный

Классификация Краудсорсинга 66 По сфере жизни: Бизнес 2) Социальный или общественный 3) Политический или государственный

Слайд 55

Классификация Краудсорсинга

67

 По типу решаемых задач: 

Создание продукта (контента)
99designs, TopCoder,  Witmart,  Tongal, Audiodraft
2)

Классификация Краудсорсинга 67 По типу решаемых задач: Создание продукта (контента) 99designs, TopCoder,
Голосование
3) Поиск решения
 Kaggle, CrowdFlower, InnoCentive, Academy of Ideas, Wazoku
4) Поиск людей, например - Liza Alert
5) Сбор информации, например - Zooniverse
6) Сбор мнений, например -  Chaordix, Innopinion и AnswerTap
7) Тестирование, например  uTest,
8) Сбор средств - Краудфандинг

Слайд 56

Преимущества Краудсорсинга

68

1) Большой охват
2) Вовлечение пользователей
3) Разнообразие выбора
4) Единственно возможный вариант
5)

Преимущества Краудсорсинга 68 1) Большой охват 2) Вовлечение пользователей 3) Разнообразие выбора
Фиксированные сроки
6) Экономия финансовых ресурсов

Слайд 57

Краудсорсинг в России

69

Краудсорсинг в России 69