- Главная
- Информатика
- Технология Data Mining. Методы классификации и кластеризации

Содержание
- 2. Краткая характеристика основных методов Data Mining Классификация по принципу работы с данными разбивает методы Data Mining
- 3. Краткая характеристика основных методов Data Mining В свою очередь, способы логической аналитики делятся на подклассы, к
- 4. Методы классификации и кластеризации Оценивание классификационных методов Оценивание методов следует проводить, исходя из следующих характеристик: скорость,
- 5. Методы классификации и кластеризации Задача кластеризации Задача кластеризации сходна с задачей классификации, является ее логическим продолжением,
- 6. Сравнительная таблица классификации и кластеризации
- 8. Скачать презентацию
Слайд 2Краткая характеристика основных методов Data Mining
Классификация по принципу работы с данными разбивает
Краткая характеристика основных методов Data Mining
Классификация по принципу работы с данными разбивает

методы Data Mining на две крупные категории:
методы, связанные с непосредственным использованием (сохранением) данных. Данные в ходе обработки детализируются при построении прогностической модели или в ходе анализа исключений. Однако такие методы малоэффективны при работе с крупными массивами данных. Методики этой категории применяются в формах кластерного анализа, метода ближайшего соседа, метода k-ближайшего соседа, рассуждений по аналогии.
дистилляция шаблонов - формирование и применение закономерностей, имеющих упорядоченный вид, то есть извлечение информации из изначальных данных с ее преобразованием в определенную систематизированную конструкцию.
Технологии этой группы представлены логическими, визуализирующими, кросс-табуляционными и базирующимися на уравнениях методами. Задействование этих методов обеспечивает эффективное применение полученных в ходе свободного поиска результатов (они более компактны по сравнению с базами данных) и преобразование этих сведений в понятные для пользователей закономерности.
методы, связанные с непосредственным использованием (сохранением) данных. Данные в ходе обработки детализируются при построении прогностической модели или в ходе анализа исключений. Однако такие методы малоэффективны при работе с крупными массивами данных. Методики этой категории применяются в формах кластерного анализа, метода ближайшего соседа, метода k-ближайшего соседа, рассуждений по аналогии.
дистилляция шаблонов - формирование и применение закономерностей, имеющих упорядоченный вид, то есть извлечение информации из изначальных данных с ее преобразованием в определенную систематизированную конструкцию.
Технологии этой группы представлены логическими, визуализирующими, кросс-табуляционными и базирующимися на уравнениях методами. Задействование этих методов обеспечивает эффективное применение полученных в ходе свободного поиска результатов (они более компактны по сравнению с базами данных) и преобразование этих сведений в понятные для пользователей закономерности.
Слайд 3Краткая характеристика основных методов Data Mining
В свою очередь, способы логической аналитики делятся на подклассы,
Краткая характеристика основных методов Data Mining
В свою очередь, способы логической аналитики делятся на подклассы,

к которым относятся постановка нечетких запросов, использование символьных правил, деревьев решений и генетических алгоритмов. Технологии кросс-табуляции основаны на применении так называемых агентов, байесовских сетей и визуальных кросс-таблиц. Статметоды и нейронные сети объединяются в методы на основе уравнений.
Существует еще одна разбивка методов Data Mining - по принципам применения математических моделей в обучении. Здесь выделяются две группы:
статистические методы, в которых используется усредненный опыт по данным, накопившимся в БД за длительный период. При использовании статметодов предварительно анализируется природа статистических данных, выявляются связи и закономерности, осуществляется многомерный статистический анализ, строятся динамические модели и прогноз на основе временных рядов;
кибернетические методы, в которых используются основы компьютерной математики и технологии искусственного интеллекта. В число таких методов входят: эволюционное программирование, нейросети, системы обработки экспертных знаний.
*К кибернетическим методам также относятся ассоциативные правила, деревья решений, нечеткая логика, генетические алгоритмы.
Существует еще одна разбивка методов Data Mining - по принципам применения математических моделей в обучении. Здесь выделяются две группы:
статистические методы, в которых используется усредненный опыт по данным, накопившимся в БД за длительный период. При использовании статметодов предварительно анализируется природа статистических данных, выявляются связи и закономерности, осуществляется многомерный статистический анализ, строятся динамические модели и прогноз на основе временных рядов;
кибернетические методы, в которых используются основы компьютерной математики и технологии искусственного интеллекта. В число таких методов входят: эволюционное программирование, нейросети, системы обработки экспертных знаний.
*К кибернетическим методам также относятся ассоциативные правила, деревья решений, нечеткая логика, генетические алгоритмы.
Слайд 4Методы классификации и кластеризации
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик:
Методы классификации и кластеризации
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик:

скорость, робастность, интерпретируемость, надежность.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость обеспечивает возможность понимания модели аналитиком.
Свойства классификационных правил:
размер дерева решений;
компактность классификационных правил.
Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость обеспечивает возможность понимания модели аналитиком.
Свойства классификационных правил:
размер дерева решений;
компактность классификационных правил.
Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
Слайд 5Методы классификации и кластеризации
Задача кластеризации
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но
Методы классификации и кластеризации
Задача кластеризации
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но

ее отличие в том, что классы изучаемого набора данных заранее не предопределены.
Кластеризация предназначена для разбиения совокупности объектов на однородные группы ( кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
Цель кластеризации - поиск существующих структур.
Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".
Характеристиками кластера можно назвать два признака:
внутренняя однородность;
внешняя изолированность.
Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
Кластеризация предназначена для разбиения совокупности объектов на однородные группы ( кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
Цель кластеризации - поиск существующих структур.
Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".
Характеристиками кластера можно назвать два признака:
внутренняя однородность;
внешняя изолированность.
Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
Слайд 6Сравнительная таблица классификации и кластеризации
Сравнительная таблица классификации и кластеризации

- Предыдущая
Производственная безопасность и травматизмСледующая -
Богиня Молва (Фама, Осса)
Осуществление поиска в готовой базе данных. Задачи с пояснениями решений
LOGO. Обобщающий урок. Техника безопасности
Базы данных
Творческий подход к использованию графов для решения задания 23 (ЕГЭ)
Презентация "Программное управление работой компьютера" - скачать презентации по Информатике
Квалификационная работа: Разработка базы данных для учёта успеваемости при семейном обучении
Основы проектирования и оборудования предприятий тонкого органического синтеза
Особенности репрезентации римской темы в российской социальной сети Вконтакте
Анализ требований к программному обеспечению. Анализ и моделирование функциональной области внедрения программных систем
Арифметические приложения теории сравнений
Презентация на тему WINDOWS VISTA
راهنمایی فیلترپوشایی صعودی
Пресс-релиз – основной инструмент PR
Современные online сервисы в образовании (1)
В мире кодов
Таблицы и блоки
Текстовые документы и технологии их создания
Лекция. Презентации
Cp2000 series training notes
Виды упаковки
Презентация на тему История развития HDD
Шаблон презентаций
Презентация на тему Информационные модели (7 класс)
Программное средство для прохождения тестирования на присвоение квалификационной категории для медицинских работников
Вредоносные программы
Элементы теории алгоритмов
Запросы в СУБД
Электронная система расписания