Обработка оптических изображений. Несколько слов о статистике

Содержание

Слайд 2

Несколько слов о статистике

Кратко о том как охарактеризовать и сравнить Ваши данные
Почти

Несколько слов о статистике Кратко о том как охарактеризовать и сравнить Ваши
инструкция

В последние годы требования к статистике при публикации результатов ужесточились, не все российские ученые адаптировались к этим требованиям
К счастью появилось большое количество программ, в которых все считают за вас, даже указывая на применимость или неприменимость метода.
Для исследователя сейчас важно знать терминологию, чтобы нажать правильную кнопку (границы применимости методов тоже – увы, автоматический режим не всегда работает)

Программы, где можно достаточно просто обработать и представить свои данные
(хотя статистические модули есть во всех уважающих себя программах)

GraphPad Prism 6.07, GraphPad Software – проста, есть необходимый минимум и не только, есть подробный хелп по программе и статистике на сайте
Microcal Origin Pro 2016 – мощная программа для представления и обработки данных, есть подробный и понятный хелп
StatSoft, Inc. STATISTICA 10 – программа для статистических расчетов,
неплохая подборка материалов о статистике на сайте
MedCalc Statistical Software version 15.8 – неплохая небольшая
программа для статистических расчетов

из 28

Слайд 3

Статистический анализ данных

Включает несколько этапов. Один из наиболее важных для вас разделов

Статистический анализ данных Включает несколько этапов. Один из наиболее важных для вас
это

Описательная (дескриптивная) статистика

Основная задача данного раздела– предоставление сжатой, концентрированной и наглядной характеристики экспериментальных и контрольных выборок в числовом и графическом виде

Индуктивная статистика

Основная задача данного раздела– проверка статистических гипотез о законе распределения, а основной областью применения – использование в медико-биологических исследованиях для сравнения двух разных выборок на предмет принадлежности к общей генеральной совокупности (достоверны ли отличия между группами).

Исследование зависимостей между переменными (корреляционный, регрессионный и в какой-то степени факторный анализ)

Снижение размерности (задача сократить количество оцениваемых переменных, это делает факторный анализ)

Классификация и прогноз (группировка – когортные исследования, дискриминация – дискриминантный анализ, кластеризация – кластерный анализ)

Анализ выживаемости (анализ времени до наступления вероятного события)

из 28

Слайд 4

Типы данных

Имеют некоторое числовое значение

количественные

дискретные

Принимают строго определенные, как правило, целочисленные значения

непрерывные

Данные могут

Типы данных Имеют некоторое числовое значение количественные дискретные Принимают строго определенные, как
быть представлены любыми численными значениями

непрерывные

качественные (категориальные)

применяются для описания состояния объекта
путем отнесения его к определенной категории. Объект относится только к одной категории исследования

номинальные

Категории не упорядочены, обозначают состояние объекта
и не упорядочивают это состояние, например, по полу: 1 –
мужской, 2 – женский.

порядковые (ранговые)

Категории могут быть упорядочены, обозначают состояние объекта (например самочувствие - 1 – хорошее, 2 – удовлетворительное, 3 – плохое). На практике часто используются для перевода количественных данных в качественные категориальные, например, при расчётах пороговых значений.

! Для каждого типа данных необходимо выбирать соответствующую процедуру обработки

из 28

Слайд 5

Описательная (дескриптивная) статистика

Важно учитывать тип данных и параметры распределения, характеризующиеся показателями асимметрии

Описательная (дескриптивная) статистика Важно учитывать тип данных и параметры распределения, характеризующиеся показателями
и гистограммой распределения

Распределение данных можно (условно) разделить на:

Нормальное (логнормальное)
распределение

Все остальные

Поэтому вначале проверяем является ли распределение данных в нашей выборке нормальным!

Существуют специальные тесты для проверки на нормальность

Для обработки используются параметрические методы

Для обработки используются непараметрические методы

д’Агустино-Пирсона (там целое семейство) – наиболее популярный в настоящее время
Шапиро-Уилка
Комогорова-Смирнова – сейчас не рекомендуется, но иногда используется

!

Программа автоматически проверит все за вас, и с учетом количества выборки тоже, но стоит осторожно относиться к выводу, что распределение нашей выборки не противоречит нормальному распределению, если у Вас менее 12 (а еще лучше 20) объектов

У качественных переменных есть стандартное отклонение и станд. ошибка среднего тоже есть но считаются по-другому

из 28

Слайд 6

Нормальное распределение

практически все значения нормально распределённой случайной величины лежат в интервале 3σ

Нормальное распределение практически все значения нормально распределённой случайной величины лежат в интервале
(0,9973).
Если же истинная величина неизвестна, то следует пользоваться не σ, а s.

Правило трёх сигм (трех s)

Процентили, Медиана, среднее, мода
В идеальном н.р. Медиана=Среднее=Мода
Если нет правильнее использовать медиану. Указание медианы означает сомнение в нормальности распределения для признака

доверительный интервал

из 28

Слайд 7

Среднее

(выборочное) Стандартное отклонение

Стандартная ошибка среднего

!

В случае больших выборок (больше 200) даже очень

Среднее (выборочное) Стандартное отклонение Стандартная ошибка среднего ! В случае больших выборок
малые различия будут достоверны

Нормальное распределение

Доверительный интервал

диапазон значений, который с определённой исследователем вероятностью включает в себя все значения параметра в популяции

при небольшом объёме выборки предпочтителен. Обычно в настоящее время принимается представление 95% доверительного интервала с указанием нижней (5%) и верхней (95%) границы.

Меньше 17 объектов – не рекомендуют пользоваться нормальным распределением (ваш выбор), меньше 7 – не пользуются

из 28

Слайд 8

Параметрические методы анализируют нормально распределенные количественные признаки
Непараметрические методы используются во всех остальных

Параметрические методы анализируют нормально распределенные количественные признаки Непараметрические методы используются во всех
случаях (для анализа количественных и качественных признаков независимо от вида их распределения)
Непараметрические методы считаются менее мощными по сравнению с параметрическими, т.е. иногда они не позволяют выявить статистические закономерности, которые могут быть выявлены с помощью параметрических методов.
Непараметрические методы более надежны в случаях, когда есть сомнения в том, что анализируемый признак имеет нормальное распределение.
Для нормально распределенных признаков параметрические и непараметрические методы дают близкие результаты

Описательная (дескриптивная) статистика

Параметрические и непараметрические методы

из 28

Слайд 9

- показатели разброса, описывающие степень разброса данных

Описательная (дескриптивная) статистика

Показатели описательной статистики

показатели положения

- показатели разброса, описывающие степень разброса данных Описательная (дескриптивная) статистика Показатели описательной
экспериментальных данных на числовой оси

максимальный и минимальный элементы
среднее значение
Медиана
Мода
геометрическое среднее
и др.;

показатели асимметрии

выборочная дисперсия
разность между минимальным и максимальным элементами (размах, интервал выборки)
доверительный интервал
интерквартильный размах
и др.

графическое представление результатов

положение медианы относительно среднего
и др.

гистограмма
частотная диаграмма
и др.

из 28

Слайд 10

Описательная (дескриптивная) статистика

Показатели положения экспериментальных данных на числовой оси

наиболее часто встречаемое значение

Описательная (дескриптивная) статистика Показатели положения экспериментальных данных на числовой оси наиболее часто
в выборке.
В некоторых случаях может быть две или более мод, что может свидетельствовать о наличии двух (нескольких ) самостоятельных групп.

Среднее арифметическое

показатель центральной тенденции*, полученный делением суммы всех значений данных на число этих данных. Адекватно если у нас нормальное (!) распределение

Медиана

центральное значение признака в последовательном ряду всех полученных значений (половина объектов больше, а половина меньше).
Как вариант: медиана - 50-м перцентиль (0,5-квантиль) или второй квартиль выборки или распределения.
Медиана вместе с квартилями используется для представления дискретных или количественных переменных при ненормальном распределении.

Мода

Максимальное и минимальное значение

Среднее геометрическое
(как правило применяется для описания логнормального распределения)

Потенцированная величина среднего арифметического рассчитанного из логарифмов значений переменной в выборке

из 28

Слайд 11

Описательная (дескриптивная) статистика

показатели разброса, описывающие степень разброса данных

Стандартное отклонение

Квантили характеризует собой частоту

Описательная (дескриптивная) статистика показатели разброса, описывающие степень разброса данных Стандартное отклонение Квантили
попадания значений переменной в определённые интервалы. Чаще всего используется разделение на 4 интервала (25%, 50%, 75%).

Стандартная ошибка среднего

Доверительный интервал

Квантили, квартили
(интерквартильный размах)

Только для нормального распределения!
Оценивает широту распределения, характеризует разброс данных

Только для нормального распределения!
Характеризует точность нахождения среднего (если ошибка обусловлена случайными причинами)

В биологических исследованиях значения параметра достаточно сильно варьирует, поэтому наиболее оптимальным описанием величины является диапазон, в который укладывается большинство значений исследуемого признака, т.е. ширина распределения.
95% доверительный интервал.

При разделении на четыре квантиля (именуемых квартилями) для предоставления оценки центральной тенденции, ширины и асимметрии распределения результатов достаточно трёх чисел: нижний квартиль (попало 25% самых маленьких значений), 50% квартиль, который соответствует медиане (попало 50% значений), и верхний квартиль (попало 75% самых маленьких значений).
Интерквантильный размах - разность между верхней и нижней квартилью.

из 28

Слайд 12

Описательная (дескриптивная) статистика

Графическое представление результатов

Гистограмма

Количественные данные

Количественные данные

Качественные данные

Диаграммы

Ящик с усами

ус

ящик

Нижняя квартиль

Верхняя квартиль

медиана

среднее

из

Описательная (дескриптивная) статистика Графическое представление результатов Гистограмма Количественные данные Количественные данные Качественные
28

Слайд 13

Индуктивная статистика

Основная область применения – использование для сравнения двух (или более) выборок

Индуктивная статистика Основная область применения – использование для сравнения двух (или более)
для определения их принадлежности к общей генеральной совокупности

Принадлежность выборок к одной генеральной совокупности свидетельствует об отсутствии различия между ними

Для проверки принадлежности формулируют статистические гипотезы:

гипотеза об отсутствии (случайности) различий между выборками- Н0 (нулевая гипотеза) гипотеза о значимости различий - Н1 (альтернативная гипотеза)

Количественную характеристику случайности различий показывает статистическая значимость (р). Чем больше р, тем больше вероятность отсутствия различий (истинности нулевой гипотезы), чем меньше р, тем больше вероятность наличия различий (истинности альтернативной гипотезы

из 28

Слайд 14

Индуктивная статистика

Типы ошибок

Ошибка – обязательный компонент статистического анализа
Допустимый уровень ошибок выбирается исследователем.

Индуктивная статистика Типы ошибок Ошибка – обязательный компонент статистического анализа Допустимый уровень

Обычно принято использовать два вида ошибок:

ошибка второго рода β
которой соответствует понятие статистической мощности 1-β

ошибка первого рода
которой соответствует понятие уровня статистической значимости α
Вероятность ошибочного признания альтернативной гипотезы (различий нет, но мы думаем что есть)
При р≤ α различия принимаются статистически значимыми
Традиционно в качестве порога (уровня)
значимости традиционно выбирается уровень 0,05 (допускает наличие
ошибки в 5 случаях из 100)

В предварительных исследованиях допускается уровень значимости α=0,1 для выявления намечающихся различий с целью дальнейшего планирования на их основе новых исследований с достаточной значимостью.

Вероятность ошибочного признания нулевой гипотезы (различия есть но мы думаем что нет)
обусловлено недостаточным количеством данных
Необходима для определения адекватного объёма выборки. При достаточной статистической мощности отсутствие статистически значимых различий
действительно признаётся таковым
Обычно в качестве критического порога принимается значение β
равное 0,1 или 0,2 (допускает наличие ошибки в 10 или 20 случаях из 100, соответственно)

из 28

Слайд 15

Индуктивная статистика (сравнение групп)

смещение признака

двусторонние тесты

односторонние тесты

Априорно предполагается, что в одной из

Индуктивная статистика (сравнение групп) смещение признака двусторонние тесты односторонние тесты Априорно предполагается,
групп распределение признака смещено в определенную сторону (большую или меньшую) по отношению к другой

Отсутствует априорная информация о смещении групп относительно друг друга

Вычисляемое для односторонних тестов значение статистической значимости примерно в 2 раза меньше, чем для двусторонних тестов, что позволяет при обосновании использования одностороннего теста чаще выявлять достоверные различия. Двусторонние тесты более универсальны.
Рекомендуется использовать двусторонние тесты (выбор за вами).

Тип выборки

Выборки могут быть независимыми (несвязанными) или зависимыми (связанными)

Сравниваем между собой (или с референсными значениями две или несколько проб

Изменение пробы во времени

0

1

2

из 28

Слайд 16

К

а

т

ег

ориа

ль

ные

да

нные

Од

на

гру

ппа

Критерий Манна-Уитни


Более

д

в

ух

г

р

у

пп

Д

ве

гру

п

пы

парный

не

за

в

исим

ый

Чис

лов

ые

д

анные

Какой тест использовать

(параметрические тесты выделены

К а т ег ориа ль ные да нные Од на гру
синим)

связанные

Д

ве

к

а

т

е

г

ории

(из

у

ч

а

емые

пропорц

ии)

Б

оле

е

д

в

ух

к

а

т

е

г

орий

Од

на

гру

ппа

Д

ве

гру

п

пы

П

арн

ые

(св

яза

нные

)

Н

е

за

в

исим

ые

Более

д

в

ух

г

р

у

пп

Критерий

М

ак

-

Н

ем

ара

К

р

и

т

е

р

и

й

χ

2

-ква

дра

т

Критерий

χ

2

-

ква

дра

т

д

ля

т

ре

нда

К

р

и

т

е

р

и

й

χ

2

-

ква

дра

т

Критерий

Кра

ск

ела

-

Уоллис

а.

несвязанные

К

ритерий

Фридмана

Однофакторный

для

ANOVA

временных рядов

(MANOVA)

Индуктивная статистика (сравнение групп)

Одной из главных задач исследователя заключается в формулировке статистических гипотез и выборе правильного статистического критерия для проверки этих гипотез

Критерий
Вилкоксона

Знаковый критерий

Одновыборочный t-критерий

Парный
t-критерий

Непарный
t-критерий

Однофакторный

ANOVA

Тест
Вилкоксона

(сравнение с гипотетическим значением)

Тест Фишера

К

р

и

т

е

р

и

й

χ

2

-ква

дра

т

Тест
Кохрана-Q

(сравнение с гипотетическим значением)

Критерий χ2-квадрат

биноминальный тест

из 28

Слайд 17

Статистическая обработка

Как правильно обработать статистические данные?

однозначного ответа нет, зависит от формы

Статистическая обработка Как правильно обработать статистические данные? однозначного ответа нет, зависит от
проведения эксперимента, количества экспериментальных данных, приборной погрешности и т.д.

Ниже приведены некоторые соображения по обработке статистических результатов применительно к конкретной задаче практикума по микроскопии

Тем не менее подобный подход применим к обработке любых микроскопических данных

из 28

Слайд 18

Статистическая обработка

Статистическая обработка измеренного параметра

Находим среднее, стандартное отклонение и стандартную ошибку

Статистическая обработка Статистическая обработка измеренного параметра Находим среднее, стандартное отклонение и стандартную
среднего

Строим гистограмму и корректируем данные (если есть основания)

Определяем нормальное ли у нас распределение

Выбираем критерий и определяем достоверно ли отличаются пробы друг от друга

Здесь не упоминается метрология и основы обработки сигнала

Находим медиану и квартили

да

нет

из 28

Слайд 19

Где и что про это можно прочитать

Ищем методички для медиков, там мало

Где и что про это можно прочитать Ищем методички для медиков, там
объясняют, зато пишут что чем обработать и сколько человек должно быть минимум
Если не хватает то, например:

Гланц. Медико-биологическая статистика – есть в интернете бесплатно
Учебник по статистике на www.statsoft.ru – на русском иногда сложноват
Intuitive Biostatistics. Harvey J. Motulsky – надо искать бесплатную версию, на английском, неплоха, http://www.intuitivebiostatistics.com
Русская выжимка из нее: http://pubhealth.spb.ru/SAS/InBio.htm
Origin и мануалы к нему www.originlab.com
Мануалы к Prism http://graphpad.com/data-analysis-resource-center/ - на английском, но написаны довольно понятно, насколько это возможно; много справочной информации по Prism и статистике в целом
Мануалы к Medcalc https://www.medcalc.org/manual/index.php - информации по статистике меньше, но интересующие разделы стоит посмотреть
Последние две программы это члены всяких статобществ, поэтому что там прописано и как считается это некий стандарт

из 28

Слайд 20

доверительный интервал

Статистическая обработка

Референсные значения

Доверительный интервал
Если распределение данных соответствует нормальному распределению,

доверительный интервал Статистическая обработка Референсные значения Доверительный интервал Если распределение данных соответствует
то это интервал в который укладывается 95% экспериментальных значений (±2s)

Критерий Стьюдента
(частный случай дисперсионного анализа)

К этому тесно примыкает понятие

Позволяет количественно оценить различия

Как посчитать доверительный интервал

Если величина не входит в референсный (доверительный) интервал, значит различия (с указанной вероятностью) достоверны

ta- зависит от количества степеней свободы системы (зависит от количества объектов в пробе и количества экспериментов) – определяется из специальных таблиц, если объектов больше 200 практически не меняется

Говорит в какой интервал входит и с какой вероятностью

из 28

Слайд 21

Статистическая обработка

Эффект множественных сравнений

Вероятность ошибиться в одном из трех случаев

Опасность попарного

Статистическая обработка Эффект множественных сравнений Вероятность ошибиться в одном из трех случаев
сравнения

P=1-(1-α)k или P=αk

α – вероятность ошибки в одном случае
k – количество сравнений

контроль



α = 0,05 k = 3

Неравенство Бонферрони

α’<αk

Вероятность хотя бы один раз ошибочно выявить различия

Что делать?
Пользоваться другими методами (см. дисперсионный анализ)
Ужесточать требования к α

из 28

Слайд 22

Статистическая обработка

оценка качественных переменных

Оценивают не количество, а доли!

Своя специфика в математике

Статистическая обработка оценка качественных переменных Оценивают не количество, а доли! Своя специфика

Стандартное отклонение и станд. Ошибка среднего тоже есть но считается по-другому

Для ситуации есть признак (1) – нет признака (0)

Р- доля членов совокупности, обладающее признаком

Стандартное отклонение

Стандартная ошибка доли

Когда корректно использовать?

Для оценки достоверности тоже есть Стьюдент, z, но свой с поправкой Йейтса

А если больше 2 признаков?
Читаем книжки и изучаем все про χ2

Составляем специальные таблицы

из 28

Слайд 23

Программы для обработки изображений

FIJI (ImageJ)
Gwiddion
Femtoskan
SPIP
Продукция компании Мекос
Семейство программ Image Pro Plus
Metamorph
И др.

из

Программы для обработки изображений FIJI (ImageJ) Gwiddion Femtoskan SPIP Продукция компании Мекос
28

Слайд 24

Данная процедура позволяет устранить дефекты, обусловленные следующими причинами

Постоянная составляющая

Постоянный наклон

Искажения, связанные с

Данная процедура позволяет устранить дефекты, обусловленные следующими причинами Постоянная составляющая Постоянный наклон
неравномерностью освещения

Обусловлена наличием:
Жидкости ячейки, обладающей конечной толщиной, заполненной жидкостью с определенным показателем преломления


Обработка изображений

вычитание фоновой плоскости

Обусловлен наличием:
неровностью подложки
неточной установки образца относительно луча света

Процедура позволяет увеличить точность и улучшить детализацию изображений

Удаляется из изображения путем вычитания постоянного наклона.
Для этого находится аппроксимирующая плоскость, которая вычитается из плоскости фазового изображения

Обусловлен наличием:
Неравномерности освещения

из 28

Слайд 25

Обработка изображений

Фильтрация случайных помех при помощи различных фильтров

Случайные помехи обусловлены следующими

Обработка изображений Фильтрация случайных помех при помощи различных фильтров Случайные помехи обусловлены
причинами

Процедура позволяет увеличить точность изображений

Шумы аппаратуры

Дефекты на матрице

Внешние акустические шумы и вибрации

Устраняется из изображения в результате применения различных фильтров

из 28

Слайд 26

Определение размеров клеток

Определение границ объектов

Изменение фонового значения приводит к значительным изменениям площади

Определение размеров клеток Определение границ объектов Изменение фонового значения приводит к значительным
объектов.

Алгоритм водораздела и его варианты

из 28

Слайд 27

Определение размеров клеток

Да что угодно

Что можно посчитать?

Площадь фазового изображения эритроцитов;
среднее ОРХ клетки;
содержание

Определение размеров клеток Да что угодно Что можно посчитать? Площадь фазового изображения
гемоглобина:

количественные

качественные
порядковые
(оценка их доли)

из 28

Имя файла: Обработка-оптических-изображений.-Несколько-слов-о-статистике.pptx
Количество просмотров: 47
Количество скачиваний: 0