- Главная
- Информатика
- Технология Data Mining. Методы классификации и кластеризации

Содержание
- 2. Краткая характеристика основных методов Data Mining Классификация по принципу работы с данными разбивает методы Data Mining
- 3. Краткая характеристика основных методов Data Mining В свою очередь, способы логической аналитики делятся на подклассы, к
- 4. Методы классификации и кластеризации Оценивание классификационных методов Оценивание методов следует проводить, исходя из следующих характеристик: скорость,
- 5. Методы классификации и кластеризации Задача кластеризации Задача кластеризации сходна с задачей классификации, является ее логическим продолжением,
- 6. Сравнительная таблица классификации и кластеризации
- 8. Скачать презентацию
Слайд 2Краткая характеристика основных методов Data Mining
Классификация по принципу работы с данными разбивает
Краткая характеристика основных методов Data Mining
Классификация по принципу работы с данными разбивает

методы Data Mining на две крупные категории:
методы, связанные с непосредственным использованием (сохранением) данных. Данные в ходе обработки детализируются при построении прогностической модели или в ходе анализа исключений. Однако такие методы малоэффективны при работе с крупными массивами данных. Методики этой категории применяются в формах кластерного анализа, метода ближайшего соседа, метода k-ближайшего соседа, рассуждений по аналогии.
дистилляция шаблонов - формирование и применение закономерностей, имеющих упорядоченный вид, то есть извлечение информации из изначальных данных с ее преобразованием в определенную систематизированную конструкцию.
Технологии этой группы представлены логическими, визуализирующими, кросс-табуляционными и базирующимися на уравнениях методами. Задействование этих методов обеспечивает эффективное применение полученных в ходе свободного поиска результатов (они более компактны по сравнению с базами данных) и преобразование этих сведений в понятные для пользователей закономерности.
методы, связанные с непосредственным использованием (сохранением) данных. Данные в ходе обработки детализируются при построении прогностической модели или в ходе анализа исключений. Однако такие методы малоэффективны при работе с крупными массивами данных. Методики этой категории применяются в формах кластерного анализа, метода ближайшего соседа, метода k-ближайшего соседа, рассуждений по аналогии.
дистилляция шаблонов - формирование и применение закономерностей, имеющих упорядоченный вид, то есть извлечение информации из изначальных данных с ее преобразованием в определенную систематизированную конструкцию.
Технологии этой группы представлены логическими, визуализирующими, кросс-табуляционными и базирующимися на уравнениях методами. Задействование этих методов обеспечивает эффективное применение полученных в ходе свободного поиска результатов (они более компактны по сравнению с базами данных) и преобразование этих сведений в понятные для пользователей закономерности.
Слайд 3Краткая характеристика основных методов Data Mining
В свою очередь, способы логической аналитики делятся на подклассы,
Краткая характеристика основных методов Data Mining
В свою очередь, способы логической аналитики делятся на подклассы,

к которым относятся постановка нечетких запросов, использование символьных правил, деревьев решений и генетических алгоритмов. Технологии кросс-табуляции основаны на применении так называемых агентов, байесовских сетей и визуальных кросс-таблиц. Статметоды и нейронные сети объединяются в методы на основе уравнений.
Существует еще одна разбивка методов Data Mining - по принципам применения математических моделей в обучении. Здесь выделяются две группы:
статистические методы, в которых используется усредненный опыт по данным, накопившимся в БД за длительный период. При использовании статметодов предварительно анализируется природа статистических данных, выявляются связи и закономерности, осуществляется многомерный статистический анализ, строятся динамические модели и прогноз на основе временных рядов;
кибернетические методы, в которых используются основы компьютерной математики и технологии искусственного интеллекта. В число таких методов входят: эволюционное программирование, нейросети, системы обработки экспертных знаний.
*К кибернетическим методам также относятся ассоциативные правила, деревья решений, нечеткая логика, генетические алгоритмы.
Существует еще одна разбивка методов Data Mining - по принципам применения математических моделей в обучении. Здесь выделяются две группы:
статистические методы, в которых используется усредненный опыт по данным, накопившимся в БД за длительный период. При использовании статметодов предварительно анализируется природа статистических данных, выявляются связи и закономерности, осуществляется многомерный статистический анализ, строятся динамические модели и прогноз на основе временных рядов;
кибернетические методы, в которых используются основы компьютерной математики и технологии искусственного интеллекта. В число таких методов входят: эволюционное программирование, нейросети, системы обработки экспертных знаний.
*К кибернетическим методам также относятся ассоциативные правила, деревья решений, нечеткая логика, генетические алгоритмы.
Слайд 4Методы классификации и кластеризации
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик:
Методы классификации и кластеризации
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик:

скорость, робастность, интерпретируемость, надежность.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость обеспечивает возможность понимания модели аналитиком.
Свойства классификационных правил:
размер дерева решений;
компактность классификационных правил.
Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость обеспечивает возможность понимания модели аналитиком.
Свойства классификационных правил:
размер дерева решений;
компактность классификационных правил.
Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
Слайд 5Методы классификации и кластеризации
Задача кластеризации
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но
Методы классификации и кластеризации
Задача кластеризации
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но

ее отличие в том, что классы изучаемого набора данных заранее не предопределены.
Кластеризация предназначена для разбиения совокупности объектов на однородные группы ( кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
Цель кластеризации - поиск существующих структур.
Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".
Характеристиками кластера можно назвать два признака:
внутренняя однородность;
внешняя изолированность.
Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
Кластеризация предназначена для разбиения совокупности объектов на однородные группы ( кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
Цель кластеризации - поиск существующих структур.
Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".
Характеристиками кластера можно назвать два признака:
внутренняя однородность;
внешняя изолированность.
Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
Слайд 6Сравнительная таблица классификации и кластеризации
Сравнительная таблица классификации и кластеризации

- Предыдущая
Производственная безопасность и травматизмСледующая -
Богиня Молва (Фама, Осса)
Дополненная реальность AR
7-1-1 (1)
Аттестационная работа. Разработка алгоритмов
Представление научных результатов
Порядок записи на полеты
Операции над высказываниями 2021
Блоги и блогеры
Язык HTML
HRM and its challenges
Структурная схема системы автоматизированного управления
Ветвления. Программирование на языке Паскаль
Современный фотоальбом
Знакомство с python. Занятие №1
Как собрать различные сегменты целевой аудитории для одного проекта и создать посыл, который их зацепит
Алгоритм Дейкстры для поиска кратчайшего пути
Семинар 5. Моделирование линейных звеньев
Цифровой оператор как инструмент организации образовательной деятельности
Жизненный цикл изделия. Блок автоматического регулирования и контроля (БАРК)
Особенности тестирования десктопных приложений
Правила оформления заданий
Понятие алгоритма. Виды алгоритмов
Компьютерное искусство и его эстетические особенности
Ваш выбор. Тест
Оформление библиографического описания
Обработка чисел
Весь гардероб в одном приложении. Wardrobe
Устройство ПК и классификация ПК
Использование свободного программного обеспечения для обучения графике