Что такое большие данные?

Содержание

Слайд 2

Что такое большие данные?

Что такое большие данные?

Слайд 3

Для чего нужны большие данные?

Для чего нужны большие данные?

Слайд 4

История больших данных

История больших данных

Слайд 5

Предыстория

В 1820 – 1840 годах впервые в истории начали появляться большие
наборы

Предыстория В 1820 – 1840 годах впервые в истории начали появляться большие
числовых данных. Этот процесс называли “лавиной чисел”.
Один из первых источников – биологические данные. Повлиял Карл Линней (1707-1778),
создавший таксономию растений и животных.
Развивались библиотечные технологии,
появлялись картотеки. Росли данные, собранные в социологических переписях. Появлялись обширные
геологические, антропологические данные.

Слайд 6

Визуализация данных

«Диаграмма причин смертности в армии на Востоке» работы Флоренс Найтингейл.

Визуализация данных «Диаграмма причин смертности в армии на Востоке» работы Флоренс Найтингейл.

Слайд 7

В 1865 году появился термин Business Intelligence. Его впервые употребил профессор Ричард

В 1865 году появился термин Business Intelligence. Его впервые употребил профессор Ричард
Миллер Девинс.
Под этим термином он подразумевал использование анализа
данных для успеха в бизнесе.

Слайд 8

Табулятор – первое устройство для обработки больших объемов информации. Было изобретено Германом

Табулятор – первое устройство для обработки больших объемов информации. Было изобретено Германом
Холлеритом в 1881 году. Оно использовалось для обработки перфокарт с данными о переписи населения США (1890) и России (1897). В случае ручной обработки данных потребовалось бы несколько лет.

Слайд 9

Первые электронные устройства, осуществлявшие анализ данных, появились во время Второй мировой войны.

Первые электронные устройства, осуществлявшие анализ данных, появились во время Второй мировой войны.
Они поначалу служили для дешифровки сообщений противника. На рисунке – британская машина для дешифровки Colossus.

Слайд 10

Первые хранилища данных появились в 1950-х годах.
Этот ленточный накопитель компьютера Bendix

Первые хранилища данных появились в 1950-х годах. Этот ленточный накопитель компьютера Bendix
G-15 относится примерно к 1956 году. Стоимость компьютера составляла $60,000 ($500,000 на современные деньги).

Слайд 11

Блок UNIVAC 1540, использовался в середине 1960-х годов,
весил около 1000 фунтов

Блок UNIVAC 1540, использовался в середине 1960-х годов, весил около 1000 фунтов
и имел два семидорожечных ленточных накопителя на 7 мегабайт.
Предназначался для работы с мейнфреймом модели 1219-B.

Слайд 12

Sony SMC-70
Первый компьютер (1982), принимавший 3,5-дюймовую гибкую дискету (1.44Mb, поначалу – 720kb),

Sony SMC-70 Первый компьютер (1982), принимавший 3,5-дюймовую гибкую дискету (1.44Mb, поначалу –
выпущенную в 1981 году.

Слайд 13

Первый CD (компакт-диск) появился в 1982 году, а первый CD-R впервые был

Первый CD (компакт-диск) появился в 1982 году, а первый CD-R впервые был
напечатан в 1988 компаниями Philips и Sony.

Слайд 14

Появились новые понятия: машинное обучение, наука о данных, глубокое обучение
мощность компьютеров стала

Появились новые понятия: машинное обучение, наука о данных, глубокое обучение мощность компьютеров
достаточной для анализа данных
для обучения нейронных сетей стали использовать графические процессоры (ускорение обучения в несколько раз)
Появилось множество данных за счет распространения Интернета
В 2010-х – развивается новый источник данных – мобильный Интернет

Современный этап (1993 - 2018 гг.)

Слайд 15

Оцифровка данных

Оцифровка данных

Слайд 16

Единицы информации

Единицы информации

Слайд 17

1 Pb – 1 Петабайт (1024Tb)

http://rtbinsight.ru/articles/tretya-faza-big-data-revolyucii.html

1 Pb – 1 Петабайт (1024Tb) http://rtbinsight.ru/articles/tretya-faza-big-data-revolyucii.html

Слайд 18

Рост больших данных

Рост больших данных

Слайд 19

Рост больших данных

Рост больших данных

Слайд 20

Факторы роста больших данных

http://blog.3clogic.com/topic/reporting

Факторы роста больших данных http://blog.3clogic.com/topic/reporting

Слайд 21

Падение стоимости носителей данных

Падение стоимости носителей данных

Слайд 22

Рынок больших данных

Рынок больших данных

Слайд 23

Рынок больших данных

Рынок больших данных

Слайд 24

Инженер больших данных

Spark

Инженер больших данных Spark

Слайд 25

Пример вакансии

Пример вакансии