Лекция 1-1

Содержание

Слайд 2

В современном мире данные генерируются и потребляются невиданными ранее темпами.
Откуда берутся

В современном мире данные генерируются и потребляются невиданными ранее темпами. Откуда берутся
эти объемы?
Огромное количество информации генерирует каждый из нас каждый день. Мы разговариваем по телефону, пишем сообщения, ведем блоги, что-то покупаем, что-то фотографируем, что-то отсылаем друзьям, что-то получаем в ответ и т.д. и т.п.
Все это оставляет свой след в информационном пространстве.
Все это где-то хранится и как-то обрабатывается.

Слайд 4


Большой объем данных порождают научные эксперименты
Так, в апреле 2016 года в открытый

Большой объем данных порождают научные эксперименты Так, в апреле 2016 года в
доступ поступили 300 Тбайт экспериментальных данных, полученных на большом адронном коллайдере.
Функционирование многих технических систем также сопровождается сбором большого количества данных. Например, самолет Боинг-787 генерирует около 500 Гбайт данных за один полет.
В настоящее время наиболее быстро растет сегмент данных устройств Интернета вещей. Затем следуют социальные сервисы.
При этом
соотношение уникальных данных (созданных и полученных) к реплицированным данным (скопированным и использованным) составляет примерно 1:9. И наблюдается дальнейшее смещение в сторону реплицированных данных: по прогнозам, к 2024 году это соотношение будет 1:10.
То есть, рост мирового объема данных в большей степени обусловлен данными, которые мы потребляем и анализируем, чем теми, что мы создаем!

Слайд 5

В определенный момент информации становится слишком много, и извлекать из нее пользу

В определенный момент информации становится слишком много, и извлекать из нее пользу
становится слишком сложно.
Для выделения из накопленных данных полезной информации требуется обработка этих данных!
Анализ данных можно определить как процесс поиска скрытых закономерностей и генерации новых знаний.
К основным задачам анализа данных можно отнести прогнозирование, классификацию, поиск схожих черт, выдачу рекомендаций, выявление отклонений.
Анализ данных – междисциплинарная область знаний, находящаяся на стыке математики, теории алгоритмов и информационных технологий.

Слайд 6


В англоязычных источниках для обозначения сферы анализа данных используется термины Data Mining

В англоязычных источниках для обозначения сферы анализа данных используется термины Data Mining
и Machine Learning (машинное обучение).
Согласно энциклопедии Британника (http://global.britannica.com), машинное обучение является дисциплиной направления «искусственный интеллект» (Artificial Intelligence), в свою очередь принадлежащего к области компьютерных наук (Computer Science).
Необходимость анализа больших объемов накопленных данных привела к созданию специализированных подразделений во многих компаниях.
Некоторые компании, например Яндекс, реализуют собственные образовательные проекты в этой области.

Слайд 7


Научные исследования
В сфере анализа данных ведутся активные научные исследования.
Анализ публикаций,

Научные исследования В сфере анализа данных ведутся активные научные исследования. Анализ публикаций,
индексированных в реферативной базе данных SCOPUS, показывает устойчивый рост количества научных работ.
В последнее время особый интерес в сфере анализа данных вызывают такие направления исследований, как «большие данные» (Big Data) и «глубокое обучение» (Deep Learning).

Слайд 8


Передовые разработки в сфере искусственного интеллекта поражают воображение.
В 1997 году компьютер

Передовые разработки в сфере искусственного интеллекта поражают воображение. В 1997 году компьютер
DeepBlue впервые выиграл матч из шести партий у чемпиона мира по шахматам.
В рамках проекта DeepQA разрабатывается система искусственного интеллекта, позволяющая воспринимать вопросы на естественных языках.
Ведется разработка беспилотных автомобилей, ядром системы управления которых является система искусственного интеллекта. Лидером в этой области можно считать компанию Google с проектом Google Self-Driving Car Project .

Слайд 9


Google Self-Driving Car Project является концептом полностью автоматической машины, которая управляется при помощи электроники.
Цель проекта — не

Google Self-Driving Car Project является концептом полностью автоматической машины, которая управляется при
только упростить безопасное передвижение на автомобиле, но и дать шанс людям с ограниченными возможностями самостоятельно использовать машину без чужой помощи.

Слайд 10

Анализ данных включает три основных этапа
Рис. 2. Этапы анализа данных
Сбор данных –

Анализ данных включает три основных этапа Рис. 2. Этапы анализа данных Сбор
процесс формирования структурированного набора данных в цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки.
Как правило, оцифрованные данные бывают представлены в виде:
- электронных таблиц в форматах XLS либо ODS;
- текстовых файлов в формате CSV;
- веб-страниц в формате HTML;
- файлов в формате XML;
- базы данных с доступом по технологии JSON либо через специализированный интерфейс (API).

Слайд 11

Источники данных
В настоящее время в открытом доступе есть большое количество баз

Источники данных В настоящее время в открытом доступе есть большое количество баз
данных, содержащих самые разнообразные сведения. Так, самым большим источником данных по разнообразным показателям стран мира в целом можно считать базу данных Всемирного банка (http://data.worldbank.org), содержащую годовые значения 331 показателя стран мира начиная с 1960 года в форматах HTML, XLS и XML.

Слайд 12

Источники данных
Самым большим источником открытых данных по Российской Федерации является «Портал

Источники данных Самым большим источником открытых данных по Российской Федерации является «Портал
открытых данных Российской Федерации» (http://data.gov.ru), содержащий более 4,1 тыс. наборов данных.
Предполагается, что предоставление свободного доступа к отдельным данным может способствовать повышению качества государственного, регионального и муниципального управления. Принцип открытости получил отдельное название – «открытые данные» (Open Data). В Российской Федерации концепция открытых данных упоминается в Федеральном законе «Об информации, информационных технологиях и о защите информации».
Также большой объем открытых статистических данных содержится в банке данных Федеральной службы государственной статистики (https://www.gks.ru ).

Слайд 13

Программное обеспечение
В основе систем анализа данных лежит программное обеспечение.
При проектировании

Программное обеспечение В основе систем анализа данных лежит программное обеспечение. При проектировании
систем анализа данных могут быть использованы следующие подходы:
- использование «коробочного» программного обеспечения общего назначения (например Microsoft Excel);
- использование программного обеспечения, ориентированного на математические задачи (например Matlab, Octave, R);
- разработка специализированного программного обеспечения с использованием готовых библиотек, включающих наборы специальных функций обработки данных.
При разработке специализированного ПО рекомендуется использовать готовые библиотеки функций обработки данных. Так, для нейросетевого анализа можно применить библиотеку FANN, имеющую версии для языков программирования С#, С++, Java, Python, R, Matlab, а для решения задач обработки изображений – библиотеку OpenCV, имеющую версии для языков Python, Java, Ruby, Matlab и др.
Имя файла: Лекция-1-1.pptx
Количество просмотров: 24
Количество скачиваний: 0