Методы «раскопки данных» — Data Mining

Содержание

Слайд 2

Медицинские данные

Результаты медико-биологических исследований – большое количество данных различного характера
Результаты лабораторных исследований;
Социально-паспортные

Медицинские данные Результаты медико-биологических исследований – большое количество данных различного характера Результаты
и антропометрические данные;
Факторы риска;
Данные медицинских приборно-компьютерных систем.

Слайд 3

Анализ медицинских данных

Статистические методы
Методы, основанные на знаниях
«Раскопка данных» (Data Mining)
Экспертные системы

Data Mining

Анализ медицинских данных Статистические методы Методы, основанные на знаниях «Раскопка данных» (Data
«Раскопка данных»
поиск (неочевидных) закономерностей в данных
обнаружение скрытых знаний

Слайд 4

Статистические методы

Статистические методы

Слайд 5

Согласованность с нормальным законом распределения

Согласованность с нормальным законом распределения

Слайд 6

Корреляционный анализ

R-коэффициент корреляции

Spearman
Pearson
Kendall

Корреляционный анализ R-коэффициент корреляции Spearman Pearson Kendall

Слайд 7

Гармонизированный анализ

Гармонизированный анализ

Слайд 8

Нестатистические методы: «раскопка данных»

Обучающая выборка

Нестатистические методы: «раскопка данных» Обучающая выборка

Слайд 9

Кластеризация

Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы).

Цель кластеризации - поиск

Кластеризация Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или
существующих структур.

Характеристиками кластера можно назвать два признака:
внутренняя однородность;
внешняя изолированность.

Непересекающиеся и пересекающиеся кластеры

Слайд 10

Разделить образцы на k групп (классов) автоматически, без информации о настоящем классе

Разделить образцы на k групп (классов) автоматически, без информации о настоящем классе
образца

Выбрать начальное положение центров классов

Сгруппировать образцы по принципу близости к центрам

Вычислить новые положения центров

Повторить шаги 2 и 3 до схождения алгоритма

Кластеризация. K-means

Слайд 11

Классификация

Классификация

Слайд 12

Задача классификации

Цель классификации:
необходимо отнести имеющиеся статические образцы (данные медосмотра) к определенному

Задача классификации Цель классификации: необходимо отнести имеющиеся статические образцы (данные медосмотра) к
классу.

Методы:
Классификатор Байеса
Дерево решений
Нейронная сеть
Метод k ближайших соседей

Слайд 13

Классификация

25 пациентов, перенесших ишемический инсульт; 44 показателя
Факторы риска
ишемическая болезнь сердца
артериальная гипертензия
сахарный диабет
курение

Классифицирующий

Классификация 25 пациентов, перенесших ишемический инсульт; 44 показателя Факторы риска ишемическая болезнь
признак: патогенетический тип инсульта
кардиоэмболический
некардиоэмболический (атеротромботический, лакунарный, криптогенный, гемореонологический)
Другие признаки
применяемые препараты
шкала NIHSSI

Слайд 14

Классификатор Байеса

Классификатор Байеса—вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными)

Классификатор Байеса Классификатор Байеса—вероятностный классификатор, основанный на применении Теоремы Байеса со строгими
предположениями о независимости.
Достоинством данного классификатора является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.

Слайд 15

Нейронные сети

При обучении сети предлагаются различные образцы образов с указанием того, к

Нейронные сети При обучении сети предлагаются различные образцы образов с указанием того,
какому классу они относятся. Образец, как правило, представляется как вектор значений признаков. При этом совокупность всех признаков должна однозначно определять класс, к которому относится образец

Слайд 16

Дерево решений

Деревья принятия решений- это дерево, на ребрах которого записаны атрибуты, от

Дерево решений Деревья принятия решений- это дерево, на ребрах которого записаны атрибуты,
которых зависит целевая функция, в листьях записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи.

Слайд 17

Метод k ближайших соседей

Метод k ближайших соседей (англ. k-nearest neighbor algorithm, kNN) -

Метод k ближайших соседей Метод k ближайших соседей (англ. k-nearest neighbor algorithm,
метод автоматической классификации объектов.
Основным принципом метода ближайших соседей является то, что объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента.
Соседи берутся исходя из множества объектов, классы которых уже известны, и, исходя из ключевого для данного метода значения k высчитывается, какой класс наиболее многочислен среди них.

Слайд 18

Сравнение классификации и кластеризации

Сравнение классификации и кластеризации

Слайд 19

Бесплатный Data Miner: RapidMiner

Бесплатный Data Miner: RapidMiner

Слайд 20

Результат запуска: построенный классификатор

Результат запуска: построенный классификатор

Слайд 21

Экспертные системы

База знаний
(правил)

Механизм вывода

База данных
(фактов)

Экспертные системы База знаний (правил) Механизм вывода База данных (фактов)

Слайд 22

Интеллектуальная медицинская информационная система

Интеллектуальная медицинская информационная система

Слайд 23

Изображение,
полученное
с микровизора

Показатель
степени МКБ

Число кристаллов
в пограничной зоне

Диагностика мочекаменной болезни

Изображение, полученное с микровизора Показатель степени МКБ Число кристаллов в пограничной зоне Диагностика мочекаменной болезни
Имя файла: Методы-«раскопки-данных»-—-Data-Mining-.pptx
Количество просмотров: 160
Количество скачиваний: 0