- Главная
- Информатика
- Анализ данных
Содержание
- 2. Интеллектуальный анализ данныхИнтеллектуальный анализ данных — это особый метод анализа данных, который фокусируется на моделировании и
- 3. «Интеллектуальный анализ данных» Не следует путать с Извлечение информации. Data Mining (рус. добыча данных, интеллектуальный анализ
- 4. Методы Data Mining (или, что то же самое, Knowledge Discovery In Data, сокращённо, KDD) лежат на
- 5. Data mining и базы данных Методы Data mining могут быть применены как для работы с большими
- 6. Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive). В
- 7. Алгоритмы обучения Для задач классификации характерно «обучение с учителем», при котором построение модели производится по выборке,
- 8. Ряд этапов решения задач методами Data Mining: Постановка задачи анализа Сбор данных Подготовка данных (фильтрация, дополнение,
- 9. Топологический анализ данных — новая область теоретических исследований для задач анализа данных — новая область теоретических
- 10. В метод топологического анализа данных входят: Замена набора элементов данных некоторым семейством комплексов в соответствии с
- 11. Облако точек Данные часто представлены множеством точек в Евклидовом пространстве, форма которого отражает описываемый данными феномен.
- 13. Школа анализа данных (ШАД) — бесплатные двухгодичные очные вечерние курсы от компании «Яндекс — бесплатные двухгодичные
- 14. Среди преподавателей — российские и зарубежные специалисты: Борис Теодорович Поляк Андрей Михайлович Райгородский Алексей Яковлевич Червоненкис
- 15. Анализ социологических данных Основная цель анализа данных в социологии — выявление, подтверждение, корректировка статистических закономерностей. В
- 16. Понятие «анализПонятие «анализ» на различных этапах исследования трактуется по-разному. Упрощенная схема социологического исследования, опирающегося на эмпирические
- 17. На всех этих трех уровнях понятие «анализ» имеет различную трактовку. На последнем уровне анализ рассматривается как
- 18. Под анализом могут пониматься различные логические схемы: логика решения задач разного класса, логика интерпретации эмпирических закономерностей.
- 19. Виды анализа по объектам управления Функциональный анализ Его объектом являются функции потребительных стоимостей, т.е. продуктов конкретного
- 20. Экономический анализ Важным объектом управления и, следовательно, анализа как управляющей функции являются экономические процессы, которые в
- 21. Социальный анализ Сложным важным объектом управления и анализа являются социальные процессы, в которых выражается многогранность социальной
- 22. Экологический анализ (ЭКА) Объектом ЭКА являются экологические процессы – взаимоотношения природы и общества, а его предметом
- 23. Виды анализа по взаимосвязанным объектам управления Функционально-экономический анализ Объектом его выступают функции или свойства изделий и
- 24. Технико-экономический анализ (ТЭА) Его объектом служат технические (натуральные) процессы создания потребительных стоимостей с заданными функциями и
- 25. Социально-экономический анализ (СЭА) Его объектом являются социальные процессы хозяйственной деятельности и связанные с ними затраты и
- 26. Экономико-экологический анализ (ЭЭКА) Объект ЭЭКА – экологические и экономические процессы, связанные с сохранением или улучшением взаимоотношений
- 27. Маркетинговый анализ применяется для изучения внешней среды функционирования предприятия, рынков сырья и сбыта готовой продукции, ее
- 29. Скачать презентацию
Слайд 2Интеллектуальный анализ данныхИнтеллектуальный анализ данных — это особый метод анализа данных, который фокусируется
Интеллектуальный анализ данныхИнтеллектуальный анализ данных — это особый метод анализа данных, который фокусируется
Интеграция данныхИнтеграция данных это предшественник анализа данных, а сам анализ данных тесно связан с визуализацией данныхИнтеграция данных это предшественник анализа данных, а сам анализ данных тесно связан с визуализацией данных и распространением данных. Термин «Анализ данных» иногда используется как синоним к моделированию данных
Слайд 3«Интеллектуальный анализ данных» Не следует путать с Извлечение информации.
Data Mining (рус. добыча
«Интеллектуальный анализ данных» Не следует путать с Извлечение информации.
Data Mining (рус. добыча
Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: просев информации, добыча данных, извлечение данных, а также интеллектуальный анализ данных. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD).
Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решенийОснову методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетейОснову методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмовОснову методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программированияОснову методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памятиОснову методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ (дескриптивный анализ, корреляционный (дескриптивный анализ, корреляционный и регрессионный анализ (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).
Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностейОдно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Слайд 4Методы Data Mining (или, что то же самое, Knowledge Discovery In Data,
Методы Data Mining (или, что то же самое, Knowledge Discovery In Data,
Исторический экскурс
Область Data Mining началась с семинара (англ. workshop), проведённого Григорием Пятецким-Шапиро в 1989 году.
Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining («добыча данных» и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).
В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.
Постановка задачи
Первоначально задача ставится следующим образом:
имеется достаточно крупная база данных;
предполагается, что в базе данных находятся некие «скрытые знания».
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. В текущих условиях глобальной конкуренции именно найденные закономерности (знания) могут быть источником дополнительного конкурентного преимущества.
Что означает «скрытые знания»? Это должны быть обязательно знания:
ранее неизвестные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
Слайд 5Data mining и базы данных
Методы Data mining могут быть применены как для
Data mining и базы данных
Методы Data mining могут быть применены как для
Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQLРазвитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Data mining и искусственный интеллект
Знания, добываемые методами Data mining, принято представлять в виде закономерностей (паттернов). В качестве таких выступают:
ассоциативные правила;
деревья решений;
кластеры;
математические функции.
Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.
Слайд 6Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные
Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные
В описательных задачах — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
поиск ассоциативных правил или паттернов (образцов);
группировка объектов, кластерный анализ;
построение регрессионной модели.
К предсказательным задачам относятся:
классификация объектов (для заранее заданных классов);
регрессионный анализрегрессионный анализ, анализ временны́х рядов.
Слайд 7Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение модели
Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение модели
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы.
Слайд 8Ряд этапов решения задач методами Data Mining:
Постановка задачи анализа
Сбор данных
Подготовка данных (фильтрация,
Ряд этапов решения задач методами Data Mining:
Постановка задачи анализа
Сбор данных
Подготовка данных (фильтрация,
Выбор модели или алгоритма анализа данных
Подбор параметров модели и алгоритма обучения
Обучение модели или автоматический поиск остальных параметров модели
Слайд 9Топологический анализ данных — новая область теоретических исследований для задач анализа данных — новая
Топологический анализ данных — новая область теоретических исследований для задач анализа данных — новая
Основные вопросы:
Как из низкоразмерных представлений получать структуры высоких размерностей?
Как дискретные единицы складываются в глобальные структуры?
Человеческий мозг легко строит представление об общей структуре по частным данным низких размерностей.
Ему не составляет труда получить трехмерную форму объекта по плоским изображениям в каждом глазу.
Создание общей структуры также производится при объединении дискретныхСоздание общей структуры также производится при объединении дискретных во времени фрагментов в непрерывный образ. Так, например, телевизионное изображение технически является массивом отдельных точек воспринимается как единая сцена.
Слайд 10В метод топологического анализа данных входят:
Замена набора элементов данных некоторым семейством комплексов
В метод топологического анализа данных входят:
Замена набора элементов данных некоторым семейством комплексов
Анализ топологических комплексов с помощью алгебраической топологии, а конкретно новой теорией устойчивых гомологий.
Перекодировка устойчивой гомологии набора данных в параметризованную версию чисел Бетти называемую штрихкодом.
Слайд 11Облако точек
Данные часто представлены множеством точек в Евклидовом пространстве, форма которого отражает
Облако точек
Данные часто представлены множеством точек в Евклидовом пространстве, форма которого отражает
Реальные трехмерные объекты могут представляться в виде облака точек. Лазером отмечаются отдельные точки и их неструктурированный набор служит представлением объекта в компьютере. Облаком точек считается любой набор точек или проекций точек в более низкой размерности.
Слайд 13Школа анализа данных (ШАД) — бесплатные двухгодичные очные вечерние курсы от компании «Яндекс —
Школа анализа данных (ШАД) — бесплатные двухгодичные очные вечерние курсы от компании «Яндекс —
Есть три отделения: анализа данныхЕсть три отделения: анализа данных, компьютерных наукЕсть три отделения: анализа данных, компьютерных наук, и больших данныхЕсть три отделения: анализа данных, компьютерных наук, и больших данных; отделение биоинформатики является самостоятельной академической структурой.
Поступление на первые три отделения состоит из прохождения интерактивного теста, письменного экзамена и очного собеседования.
Ежегодно школа выпускает 81 человека по специальности «компьютерная наука».
Школа имеет филиалы в Санкт-Петербурге Школа имеет филиалы в Санкт-Петербурге, Екатеринбурге Школа имеет филиалы в Санкт-Петербурге, Екатеринбурге, Новосибирске Школа имеет филиалы в Санкт-Петербурге, Екатеринбурге, Новосибирске, Киеве Школа имеет филиалы в Санкт-Петербурге, Екатеринбурге, Новосибирске, Киеве и Минске Школа имеет филиалы в Санкт-Петербурге, Екатеринбурге, Новосибирске, Киеве и Минске. В Москве Школа имеет филиалы в Санкт-Петербурге, Екатеринбурге, Новосибирске, Киеве и Минске. В Москве обучение проходит в Центральном офисе «Яндекса». Студенты из регионов обучаются с помощью видеолекций.
Слайд 14Среди преподавателей — российские и зарубежные специалисты:
Борис Теодорович Поляк
Андрей Михайлович Райгородский
Алексей Яковлевич Червоненкис
Альберт
Среди преподавателей — российские и зарубежные специалисты:
Борис Теодорович Поляк
Андрей Михайлович Райгородский
Алексей Яковлевич Червоненкис
Альберт
Слайд 15Анализ социологических данных
Основная цель анализа данных в социологии — выявление, подтверждение, корректировка статистических
Анализ социологических данных
Основная цель анализа данных в социологии — выявление, подтверждение, корректировка статистических
В методологии анализа данных следует выделить следующие взаимосвязанные части:
Типы данных (данные, полученные посредством вопросников простой и сложной структуры; об использовании бюджета времени, текстовые данные разного вида).
Приемы, подходы к сбору данных, к измерению (одномерное и
многомерное шкалирование; формирование индексов; ранжирование).
Восходящая стратегия анализа данных. ЛогикаЛогика и методыЛогика и методы проверки описательных гипотез. Поиск эмпирических закономерностей.
Нисходящая стратегия анализа данных.
Типологический анализ, факторный анализ, причинный анализ данных.
Слайд 16Понятие «анализПонятие «анализ» на различных этапах исследования трактуется по-разному. Упрощенная схема социологического
Понятие «анализПонятие «анализ» на различных этапах исследования трактуется по-разному. Упрощенная схема социологического
Она состоит из трех элементов:
Концептуальная схема исследования (предмет, объект, цели, задачи, гипотезы исследования, понятийный аппарат исследования).
Методика сбора эмпирических данных (понятия и инструментарий исследования).
Методика обработки данных (формы представления информации, методы первичного анализа данных, логика применения математических методов.
Слайд 17На всех этих трех уровнях понятие «анализ» имеет различную трактовку.
На последнем
На всех этих трех уровнях понятие «анализ» имеет различную трактовку.
На последнем
Слайд 18Под анализом могут пониматься различные логические схемы: логика решения задач разного класса,
Под анализом могут пониматься различные логические схемы: логика решения задач разного класса,
В целом любое социологическое исследование есть анализ фрагмента социальной реальности.
Слайд 19Виды анализа по объектам управления
Функциональный анализ
Его объектом являются функции потребительных стоимостей, т.е.
Виды анализа по объектам управления
Функциональный анализ
Его объектом являются функции потребительных стоимостей, т.е.
Технический анализ
Его предметом выступают причинно-следственные связи натуральных процессов деятельности, обеспечивающие формирование продуктов конкретного труда с заданными потребительскими свойствами (функциями).
Слайд 20Экономический анализ
Важным объектом управления и, следовательно, анализа как управляющей функции являются экономические
Экономический анализ
Важным объектом управления и, следовательно, анализа как управляющей функции являются экономические
Слайд 21Социальный анализ
Сложным важным объектом управления и анализа являются социальные процессы, в которых
Социальный анализ
Сложным важным объектом управления и анализа являются социальные процессы, в которых
Слайд 22Экологический анализ (ЭКА)
Объектом ЭКА являются экологические процессы – взаимоотношения природы и общества, а
Экологический анализ (ЭКА)
Объектом ЭКА являются экологические процессы – взаимоотношения природы и общества, а
Слайд 23Виды анализа
по взаимосвязанным объектам управления
Функционально-экономический анализ
Объектом его выступают функции или свойства
Виды анализа
по взаимосвязанным объектам управления
Функционально-экономический анализ
Объектом его выступают функции или свойства
Слайд 24Технико-экономический анализ (ТЭА)
Его объектом служат технические (натуральные) процессы создания потребительных стоимостей с
Технико-экономический анализ (ТЭА)
Его объектом служат технические (натуральные) процессы создания потребительных стоимостей с
Если ФЭА изучает сущность и содержание объекта (т.е. функции и его стоимость), то ТЭА – форму и способы создания объекта как носителя функций и затраты живого и овеществленного труда на осуществление этих способов.
Слайд 25Социально-экономический анализ (СЭА)
Его объектом являются социальные процессы хозяйственной деятельности и связанные с
Социально-экономический анализ (СЭА)
Его объектом являются социальные процессы хозяйственной деятельности и связанные с
Слайд 26Экономико-экологический анализ (ЭЭКА)
Объект ЭЭКА – экологические и экономические процессы, связанные с сохранением или
Экономико-экологический анализ (ЭЭКА)
Объект ЭЭКА – экологические и экономические процессы, связанные с сохранением или
Предметом ЭЭКА являются причинно-следственные связи, определяющие результаты взаимодействия экономических и экологических процессов и изменения результатов за рассматриваемый период.
Цель ЭЭКА – сохранение нормального состояния взаимоотношений природы и человека или его улучшение с минимальными затратами материальных и трудовых ресурсов (в денежной форме).
Слайд 27Маркетинговый анализ
применяется для изучения внешней среды функционирования предприятия, рынков сырья и
Маркетинговый анализ
применяется для изучения внешней среды функционирования предприятия, рынков сырья и