БМС –Биомедстатистика

Содержание

Слайд 2

Лекция 2. Гармонизация статистических доказательств и предсказаний

Лекция 2. Гармонизация статистических доказательств и предсказаний

Слайд 3

Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2.
При этом надо помнить, что

Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2. При этом надо помнить,
результат обследования является бинарным (дихотомическим):
либо положительным, либо отрицательным, т.е. без промежуточных градаций.
Дихотомическое деление привлекательно своей простотой.
Однако такое упрощение является серьезным ограничением, поскольку результаты подобных обследований зачастую являются мерными.

Слайд 4

Два основных типа Статистических Данных и их моделей

Счетные Данные
Счетные Данные получают путем

Два основных типа Статистических Данных и их моделей Счетные Данные Счетные Данные
подсчета объектов, предметов.
Моделью для них являются Дискретные Случайные Величины и, соответственно, Дискретные Распределения
Мерные Данные
Мерные Данные получаются путем измерения признаков.
Моделью для них являются Непрерывные Случайные Величины и, соответственно, Непрерывные Распределения.
Счетные данные подсчитываются.
Мерные данные измеряются.

Слайд 5

Пример: каковы признаки этой собаки?

Качественные:
Ее окрас - коричневый с черным
У нее длинная

Пример: каковы признаки этой собаки? Качественные: Ее окрас - коричневый с черным
шерсть
Она энергичная
Количественные:
счетные:
У нее 4 ноги
У нее два брата
мерные:
Ее вес – 25,5 кг
Ее рост (в холке) 56,5 см

Слайд 6

Цитокины и диагностика синдрома задержки развития плода (СЗРП)

Королева Л.И.

Цитокины и диагностика синдрома задержки развития плода (СЗРП) Королева Л.И.

Слайд 7

СЗРП

Термин Синдром задержки развития плода (СЗРП) используется для описания плода, масса которого гораздо меньше

СЗРП Термин Синдром задержки развития плода (СЗРП) используется для описания плода, масса
ожидаемой для данного гестационного возраста.
Плод/ребенок, масса тела которого попадает в нижние 10% распределения нормальной популяции данного гестационного возраста, рассматривается как имеющий СЗРП.
Оценка базируется на стандартизованных таблицах соотношения массы тела и гестационного возраста.
По данным отечественных авторов СЗРП в акушерской практике встречается с частотой от 5% до 17,6%.
Согласно последним отечественным данным частота (распространенность) СЗРП на протяжении последних 10 лет находилась в пределах 3,5 – 4,6%.

Слайд 8

СЗРП

Плод с задержкой внутриутробного развития  подвержен повышенному риску внутриутробной гибели или неонатальной

СЗРП Плод с задержкой внутриутробного развития подвержен повышенному риску внутриутробной гибели или
смерти, асфиксии до или во время родов.
Сразу после рождения ему угрожает аспирация мекония, гипогликемия, гипотермия, РДС и множество других состояний.
Частота перинатальной смертности при СЗРП повышена в 7-10 раз, очень велика и перинатальная заболеваемость.
Перечисленные отрицательные обстоятельства показывают, как важно выявлять СЗРП еще до родов, оптимизировать условия внутриутробного развития плода, планировать и проводить роды, используя наиболее безопасные средства, и обеспечивать наилучший уход в послеродовом периоде.

Слайд 9

Содержание цитокина у 16 здоровых матерей и у 20 матерей с СЗРП

Содержание цитокина у 16 здоровых матерей и у 20 матерей с СЗРП

Слайд 10

Гистограмма

Гистограмма 
(от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание)
— столбиковая диаграмма
— способ графического представления

Гистограмма Гистограмма (от др.-греч. ἱστός — столб + γράμμα — черта, буква,
табличных данных.

Слайд 11

Гистограммы содержания цитокина у матерей здоровых детей и детей с СЗРП

Здоровые

СЗРП

Гистограммы содержания цитокина у матерей здоровых детей и детей с СЗРП Здоровые СЗРП

Слайд 12

Сопоставление гистограмм содержания цитокина у матерей здоровых детей и детей с СЗРП

Сопоставление гистограмм содержания цитокина у матерей здоровых детей и детей с СЗРП

Слайд 13

ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

Слайд 14

Распределения мерного диагностического признака у субъектов с болезнью и без нее

Значения мерного

Распределения мерного диагностического признака у субъектов с болезнью и без нее Значения
диагностического признака

Субъекты с болезнью

Субъекты без болезни

Слайд 15

Значения мерного диагностического признака

Пороговое отсекающее значение

Значения мерного диагностического признака Пороговое отсекающее значение

Слайд 16

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Истинные «позитивы»

Истинные «позитивы»

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Истинные «позитивы» Истинные «позитивы»

Слайд 17

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Ложные «позитивы»

Ложные «позитивы»

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Ложные «позитивы» Ложные «позитивы»

Слайд 18

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Истинные «негативы»

Истинные «негативы»

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Истинные «негативы» Истинные «негативы»

Слайд 19

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Ложные «негативы»

Ложные «негативы»

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Ложные «негативы» Ложные «негативы»

Слайд 20

Операционная характеристика приёмника

Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из теории обработки

Операционная характеристика приёмника Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл
сигналов,
Эту характеристику впервые ввели во время II мировой войны, после поражения американского военного флота в Пёрл Харборе в 1941 году, когда была осознана проблема повышения точности распознавания самолётов противника по радиолокационному сигналу.
Позже нашлись и другие применения: медицинская диагностика, приёмочный контроль качества, кредитный скоринг, предсказание лояльности клиентов, и т.д.

Слайд 21

ROC-кривая
– графическая характеристика качества диагностического теста,
зависимость доли истинных позитивов среди

ROC-кривая – графическая характеристика качества диагностического теста, зависимость доли истинных позитивов среди
субъектов с болезнью:
Se = f(T+|D+) = f(T+,D+)/f(D+)
от доли ложных позитивов среди субъектов с болезнью:
(1 - Sp) = f(T+|D-) = f(T+,D-)/f(D+)
при варьировании порога отсечения для распознавания наличия или отсутствия болезни.

Слайд 22

ROC-кривая для данных о содержании цитокина у матерей здоровых детей и детей

ROC-кривая для данных о содержании цитокина у матерей здоровых детей и детей
с СЗРП. Программа AtteStat http://attestatsoft.narod.ru/

Слайд 23

Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании цитокина у

Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании цитокина у
матерей здоровых детей и детей с СЗРП

Порог отсечения Tr есть такое значение мерного диагностического признака, для которого расстояние от диагонали на ROC-кривой является максимальным.
В данном случае это точка, для которой
Se = 0,95 и Sp = 0,88

Слайд 24

Нахождение оптимального порога отсечения, Tr0 = 121

Нахождение оптимального порога отсечения, Tr0 = 121

Слайд 25

Решающее правило:
Значения признака, превышающие порог Tr0 = 121 или равные ему, принимаются

Решающее правило: Значения признака, превышающие порог Tr0 = 121 или равные ему,
за положительный результат диагностического теста.
Значения признака ниже порога Tr0 = 121 принимаются за отрицательный результат диагностического теста.

Слайд 26

Хороший тест:

Посредственный тест:

Сравнение ROC-кривых

Хороший тест: Посредственный тест: Сравнение ROC-кривых

Слайд 27

Наилучший тест:

Наихудший тест:

Распределения значений мерного признака не пересекаются вовсе

Распределения значений мерного признака

Наилучший тест: Наихудший тест: Распределения значений мерного признака не пересекаются вовсе Распределения
полностью совпадают

Предельные варианты ROC-кривых

Слайд 28

Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

Слайд 29

Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

Слайд 30

Результаты ROC-анализа

Оптимальный порог отсечения: Tr = 121
AUC = 0,750,891,00
Указаны границы 99%-го

Результаты ROC-анализа Оптимальный порог отсечения: Tr = 121 AUC = 0,750,891,00 Указаны
ДИ для AUC.
Чувствительность: Se = 0,95
Специфичность: Sp = 0,88

Слайд 31

«Площадь под кривой»

AUC (Area Under Curve)
- площадь под ROC-кривой - полезный

«Площадь под кривой» AUC (Area Under Curve) - площадь под ROC-кривой -
обобщенный показатель качества диагностического теста.
Чем больше значение AUC, тем «лучше» способность диагностического теста распознавать наличие и отсутствие болезни,
Кроме того, данный показатель удобно использовать для сравнительного анализа нескольких методов диагностики.

Слайд 32

Идеальный, бесполезный и абсурдный тесты в терминах AUC

Если тест идеальный, то
AUC

Идеальный, бесполезный и абсурдный тесты в терминах AUC Если тест идеальный, то
= 1.
Если
AUC = 0,5,
то тест бесполезен.
Если
AUC < 0,5,
то тест следует признать абсурдным или даже «вредным».

Слайд 33

Словесные интерпретации для градаций AUC

Словесные интерпретации для градаций AUC

Слайд 34

AUC = 50%

AUC = 90%

AUC = 65%

AUC = 100%

AUC для ROC-кривых

AUC = 50% AUC = 90% AUC = 65% AUC = 100% AUC для ROC-кривых

Слайд 35

Обсуждение результатов

99%-й ДИ для AUC = 0,750,891,00 не накрывает неинформативное значение AUC

Обсуждение результатов 99%-й ДИ для AUC = 0,750,891,00 не накрывает неинформативное значение
= 0,50.
Следовательно, оцениваемое значение AUC статистически значимо отличается от бесполезного (неинформативного) значения 0,5 на уровне значимости α = 0,01.
Однако с практической точки зрения способность проверяемого диагностического теста распознавать наличие или отсутствие болезни следует признать всего лишь удовлетворительной, поскольку нижняя граница 99%-го ДИ для AUCL = 0,75 не выходит за границы соответствующего интервала (0,7 – 0,8).

Слайд 36

Результирующая таблица 2×2

Результирующая таблица 2×2

Слайд 37

Обсуждение результатов

Se = 0,780,950,99
Sp = 0,660,880,93
99%-ые ДИ и для Se и для

Обсуждение результатов Se = 0,780,950,99 Sp = 0,660,880,93 99%-ые ДИ и для
Sp не накрывают неинформативные значения Se = 0,5 и Sp = 0,5.
Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений.
Поскольку нижняя граница 99%-го ДИ для Se превышает значение 0,7, то чувствительность проверяемого диагностического теста следует признать удовлетворительной.
Для Sp нижняя граница 99%-х ДИ не превышает значение 0,7.
Поэтому специфичность проверяемого диагностического теста следует признать посредственной.

Слайд 38

Обсуждение результатов

LR[+] = 1,47,642
LR[-] = 0,0050,0570,71
99%-ые ДИ и для LR[+] и для

Обсуждение результатов LR[+] = 1,47,642 LR[-] = 0,0050,0570,71 99%-ые ДИ и для
LR[-] не накрывают неинформативные значения LR[+] = 1,0 и LR[-] = 1,0.
Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений.
Однако нижняя граница 99%-го ДИ для LR[+] не превышает значение 3,0, а верхняя граница 99%-го для LR[-] превышает значение 0,3.
Поэтому способность как положительных, так и отрицательных результатов данного диагностического теста распознавать как наличие, так и отсутствие болезни следует признать неудовлетворительными.

Слайд 39

Предостережение

Подобные исследования следует рассматривать как сугубо предварительные
(пилотные, разведочные, обучающие).
Об этом свидетельствуют

Предостережение Подобные исследования следует рассматривать как сугубо предварительные (пилотные, разведочные, обучающие). Об
в частности чрезвычайно широкие доверительные интервалы (ДИ) для оцениваемых параметров.
Поэтому такие исследования надо обязательно повторить с выборками гораздо большего объема и удостовериться, воспроизводятся ли результаты.

Слайд 40

Одно распределение «вложено» в другое: ROC-анализ неприменим

Гистограмма

Одно распределение «вложено» в другое: ROC-анализ неприменим Гистограмма

Слайд 41

Еще пример, когда ROC-анализ неприменим

Гистограмма

Еще пример, когда ROC-анализ неприменим Гистограмма

Слайд 42

Нормальные вероятностные графики

Здоровые

СЗРП

Нормальные вероятностные графики Здоровые СЗРП

Слайд 43

Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с СЗРП

Все

Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с СЗРП
Р-значения превышают пороговое значение 0,05.
Следовательно у нас нет оснований сомневаться в гипотезе о нормальности распределения, порождающего наблюдаемые данные.

Слайд 44

Графики (диаграммы) «короб с усами», программа Instat+ http://www.rdg.ac.uk/ssc/software/instat/instat.html

Графики (диаграммы) «короб с усами», программа Instat+ http://www.rdg.ac.uk/ssc/software/instat/instat.html

Слайд 45

Резко выделяющиеся значения – «выбросы»

Выскакивающие значения можно и нужно выявлять.
Но отбрасывать

Резко выделяющиеся значения – «выбросы» Выскакивающие значения можно и нужно выявлять. Но
их следует на основе внестатистических соображений.
Например, если записано значение для артериального давления 1100, то очевидно, что здесь опечатка: лишняя 1 или лишний 0.

Слайд 46

Сжатие (свертка, редукция) статистических данных

Статистика – любая функция от случайных величин, порождающих

Сжатие (свертка, редукция) статистических данных Статистика – любая функция от случайных величин,
получаемые статистические данные.
Простейший пример - выборочное среднее:

Слайд 47

Основная логика статистического оценивания: интервальные оценки

Понятно, что если мы многократно повторим эксперимент,

Основная логика статистического оценивания: интервальные оценки Понятно, что если мы многократно повторим
то вычисленные средние значения неизбежно будут варьировать.
Поэтому задача математиков – вывести математический закон (вероятностное распределение), которому подчиняется варьирование этих выборочных средних.
Если такой закон найден, то тогда можно построить доверительные интервалы (ДИ) для оцениваемого среднего с заданной доверительной вероятностью
(1 – α).

Слайд 48

Статистические гипотезы

В обычном языке слово «гипотеза» означает предположение.
В том же смысле

Статистические гипотезы В обычном языке слово «гипотеза» означает предположение. В том же
оно употребляется и в научном языке для предположений, вызывающих сомнения.
В математической статистике, термин «гипотеза» означает предположение, которое не только вызывает сомнения, но и которое мы собираемся в данный момент проверить.
Проверка статистической гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимися данными.

Слайд 49

Проверяемая гипотеза

В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об

Проверяемая гипотеза В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой
отсутствии того или иного эффекта:
об отсутствии различий, например, о равенстве нулю разности средних;
об отсутствии тех или иных эффектов, связей, соответствий, зависимостей и т.п.
Поэтому проверяемую гипотезу принято назвать нулевой и обозначать символом H0.

Слайд 50

Использование доверительных интервалов (ДИ) для проверки нулевых гипотез

Например, для проверки нулевой гипотезы

Использование доверительных интервалов (ДИ) для проверки нулевых гипотез Например, для проверки нулевой
о равенстве двух средних:
H0: M1 – M2 = 0
можно построить ДИ для разности средних.
Тогда, если вычисленный 100(1 – α)%-й ДИ не накрывает постулируемое этой гипотезой значение 0, то отклонение оцениваемой разности от 0 можно признать статистически значимым на заранее выбранном уровне значимости α.

Слайд 51

Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта

Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта

Слайд 52

Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с

Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с
СЗРП, 1-α = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

99%-й ДИ для разности средних не накрывает значение 0.
Следовательно оцениваемая разность статистически значимо отличается от 0 на уровне значимости 0,01.
Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную.

Слайд 53

Статистики критериев (тестовые статистики)

Тестовая статистика – статистика, используемая для проверки конкретной статистической

Статистики критериев (тестовые статистики) Тестовая статистика – статистика, используемая для проверки конкретной
гипотезы.
Пример: статистика t-критерия Стьюдента
В этом случае проверка гипотезы H0 о равенстве двух средних: H0: M1 – M2 = 0 сводится к проверке гипотезы о том, что t = 0.
Когда эта нулевая гипотеза верна, то распределение этой статистики известно – это t-распределение Стьюдента с параметром (числом степеней свободы), равным df.

Слайд 54

Р-значение

Для проверки нулевых гипотез с помощью статистических критериев основным приемом является

Р-значение Для проверки нулевых гипотез с помощью статистических критериев основным приемом является
вычисление значения вероятности, которое называется Р-значением.

Слайд 55

Р-значение

P-значение есть условная вероятность, а именно:
Вероятность получить наблюдаемое значение tнабл. статистики

Р-значение P-значение есть условная вероятность, а именно: Вероятность получить наблюдаемое значение tнабл.
некоего критерия T и все остальные еще менее вероятные значения этой статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна нулевая гипотеза H0:
Pval = Pr[|T| ≥ |tнабл.| | H0].
Тут следует обратить внимание на то, что «еще менее вероятные данные» не являются «данными», мы их не наблюдаем.
Мы их додумываем из всех возможных значений в рамках выбранной нами (нулевой) модели.

Слайд 56

Выбор порога для P-значения, и можно ли его обосновать?

Когда наблюдаемое P-значение мало,

Выбор порога для P-значения, и можно ли его обосновать? Когда наблюдаемое P-значение
то появляется соблазн отвергнуть H0.
Однако нет никаких статистических соображений, какое значение P следует считать настолько малым, чтобы смело отклонить H0.
Это решение является внестатистическим.
На практике решение отклонить или принять H0 должно зависеть от обстоятельств.
Исследователь в каждой конкретной ситуации должен сам сделать этот выбор.

Слайд 57

Андрей Николаевич Колмогоров (урождённый Катаев, 12(25).04.1903 — 20.10.1987) 

Пророк в своем отечестве

Андрей Николаевич Колмогоров (урождённый Катаев, 12(25).04.1903 — 20.10.1987) Пророк в своем отечестве

Слайд 58

Колмогоров А. Н. Вероятность. ВиМСЭ (1951). С. 97: http://ru.science.wikia.com/wiki/Вероятность_(в_теории_вероятностей)

При практическом употреблении вычисленных значений

Колмогоров А. Н. Вероятность. ВиМСЭ (1951). С. 97: http://ru.science.wikia.com/wiki/Вероятность_(в_теории_вероятностей) При практическом употреблении
вероятности мы неизбежно приходим к вопросу о том, сколь малыми значениями вероятностей мы можем пренебречь.
В математической статистике вероятность, которой решено пренебрегать в данном исследовании, называют уровнем значимости.
На практике этот вопрос решается каждый раз по-разному, в зависимости от того, насколько велика необходимость быстрого перехода от накопления надежных данных к их действительному употреблению.

Слайд 59

Колмогоров, 1951, 1956

«Норма в 0,05 для серьезных научных исследований явно недостаточна» (1956).

Колмогоров, 1951, 1956 «Норма в 0,05 для серьезных научных исследований явно недостаточна»

«Хотя в статистике обычно рекомендуют пользоваться уровнями значимости от 0,05 при предварительных ориентировочных исследованиях и до 0,001 при окончательных серьезных выводах, часто достижима значительно большая достоверность [статистическая значимость – НХ] вероятностных выводов.
Например, основные выводы статистической физики основаны на пренебрежении лишь вероятности порядка меньшего 0, 000 000 000 1 (<10-10)» (1951).
Воспроизведено в: Колмогоров А. Н. В кн.: Вероятность и математическая статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. — М.: Изд-во «Большая Российская Энциклопедия», 1999. – c. 97 и 975.

Слайд 60

В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей

В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей
различных генов, исследователи ориентируются на Р-значения порядка
10-7.
При таком уровне значимости приходится обследовать сотни тысяч людей.
Но даже при столь суровой требовательности результаты далеко не всегда воспроизводятся в повторных проверочных исследованиях.

Слайд 61

«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s

«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s
wrong with significance tests? BMJ, 2001. – Vol. 322. – P. 227-231.

В наши дни Колмогорову вторят зарубежные авторы:
P-значение близкое к 0,05 не является сильным свидетельством против нулевой гипотезы.
Сильными свидетельствами против Н0 следует признавать значения P < 0,001.
В публикациях надо представлять точные P-значения без соотнесения их с какими-либо пороговыми (критическими) значениями (типа 0,05).
Наравне с P-значениями нужно указывать доверительные интервалы.

Слайд 62

Традиционная интерпретация P-значений (шкала Michelin)

Традиционная интерпретация P-значений (шкала Michelin)

Слайд 63

Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ,

Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ,
1982. – 264 с.

Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор.
В настоящее время многие биометрики склоняются к следующему правилу:
а) если P > 0,05, то принимается нулевая гипотеза;
б) если P < 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая;
в) если 0,01 < P < 0,05, то результат считается неопределенным.

Слайд 64

[0,05; 0,01] – «серая зона»

[0,05; 0,01] – «серая зона»

Слайд 65

Sir Ronald Aylmer Fisher 17.02.1890 – 29.07.1962

Sir Ronald Aylmer Fisher 17.02.1890 – 29.07.1962

Слайд 66

Пожелание: «гибкие» P-значения

«В действительности ни один исследователь не пользуется фиксированным уровнем значимости

Пожелание: «гибкие» P-значения «В действительности ни один исследователь не пользуется фиксированным уровнем
с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы.
Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений».
R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956

Слайд 67

Результаты статистического сравнение групп матерей здоровых детей и детей с СЗРП, 1-α

Результаты статистического сравнение групп матерей здоровых детей и детей с СЗРП, 1-α
= 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

Слайд 68

Основная логика использования Р-значений состоит в том, что если оно малó, то

Основная логика использования Р-значений состоит в том, что если оно малó, то
считается, что малоправдоподобно получить имеющиеся данные при условии, что справедлива нулевая гипотеза.
Как следствие делается вывод, что в таком случае малоправдоподобна и сама нулевая гипотеза.
Это считается достаточным аргументом для того, чтобы отклонить Н0 и принять альтернативную гипотезу Н0.
В данном случае Pval = 3∙10-6.
Вывод: различие в содержании цитокина у матерей здоровых детей и детей с СЗРП статистически высоко значимо; во второй группе оно выше, чем в первой.

Слайд 69

Акт интеллектуальной смелости

Когда P-значение очень мало, мы берем на себя смелость отклонить

Акт интеллектуальной смелости Когда P-значение очень мало, мы берем на себя смелость
нулевую гипотезу (и принять альтернативную).
Всякий раз, принимая решение отклонить или принять нулевую гипотезу, мы совершаем акт интеллектуальной смелости.
И этот акт является внестатистическим.

Слайд 70

Распространенный соблазн

Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так:

Распространенный соблазн Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать

чем меньше P-значение, тем весомее доводы против нулевой гипотезы H0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться в H0.
Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать P-значение как вероятность нулевой гипотезы.

Слайд 71

Распространенное заблуждение

P-значение не есть вероятность нулевой гипотезы !
Поскольку P-значение вычисляется
при условии,
что справедлива

Распространенное заблуждение P-значение не есть вероятность нулевой гипотезы ! Поскольку P-значение вычисляется
нулевая гипотеза H0:
Pval = Pr{|D| ≥ |dнабл.||H0},
то оно никак не может быть вероятностью нулевой гипотезы:
P{D|H0} ≠ P{H0|D}

Слайд 72

P-значение не есть вероятность нулевой гипотезы!

К сожалению, даже в известной книге

P-значение не есть вероятность нулевой гипотезы! К сожалению, даже в известной книге
С.Гланца можно встретить утверждение:
«Упрощая, можно сказать, что Р — это вероятность справедливости нулевой гипотезы»
Гланц С. Медико-биологическая статистика. — М.: Практика, 1998. — с. 119.
Это мнение глубоко ошибочно и чревато пагубными последствиями.
К чести автора, в последующих (у нас не переведенных) изданиях этой его книги оно отсутствует.

Слайд 73

Калибровка P-значения

Sellke T., Bayarri M.J., Berger J.O.
Calibration of p Values for Testing

Калибровка P-значения Sellke T., Bayarri M.J., Berger J.O. Calibration of p Values
Precise Null Hypotheses
The American Statistician, Vol. 55, No. 1. (2001), pp. 62-71.
При

Слайд 74

Калибровка P-значений

Held L. A nomogram for P values.
BMC Medical Research Methodology 2010,

Калибровка P-значений Held L. A nomogram for P values. BMC Medical Research
10:21 doi:10.1186/1471-2288-10-21
http://www.biostat.uzh.ch/static/pnomogram/

Слайд 78

«Цена» Р-значения

Для наглядности значения в таблице округлены до первой значащей цифры.

«Цена» Р-значения Для наглядности значения в таблице округлены до первой значащей цифры.
Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и 1,8%.
Chow SC, Shao J, and Wang, H. Sample Size Calculations in Clinical Research. Second edition, Chapman Hall/CRC Press, Taylor & Francis, New York, New York.  P. 6, Table 1.1.2.

Слайд 79

Бейзовская интерпретация Р-значения

Обычно принято интерпретировать P-значения как меру доказательства, предоставляемого имеющимися

Бейзовская интерпретация Р-значения Обычно принято интерпретировать P-значения как меру доказательства, предоставляемого имеющимися
данными, против нулевой гипотезы.
Однако с точки зрения бейзовской статистики Р-значение есть всего лишь вероятность того, что при повторении эксперимента будет получена разность средних с противоположным знаком.
При такой интерпретации понятно, что Р-значение ничего не говорит ни о вероятности нулевой гипотезы P{H0|D}, ни о размере эффекта, в данном случае о разности средних.

Слайд 80

Привычка свыше нам дана

Это прекрасно понимал Р.А. Фишер:
«Критерий значимости не позволяет

Привычка свыше нам дана Это прекрасно понимал Р.А. Фишер: «Критерий значимости не
нам делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности» (Fisher R.A. The design of experiments. Edinburgh: Oliver & Boyd, 1935).
Тем не менее многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на Р-значение,
игнорируя практическую (клиническую) важность полученных ими результатов, игнорируя размер эффекта.

Слайд 81

Статистическая значимость и размер эффекта

Эффект (различие, связь, риск, польза, ассоциация и т.

Статистическая значимость и размер эффекта Эффект (различие, связь, риск, польза, ассоциация и
п.) может быть статистически значимым, но его практическая (например, клиническая) ценность может оказаться ничтожной.
«Статистически значимый» не означает «значительный», «практически важный», «ценный».
Эффекты могут быть реальными, неслучайными, но практически пренебрежимо малыми.

Слайд 82

Размер эффекта

Вопрос о клинической (практической) ценности (важности) наблюдаемого
Размера Эффекта
является ключевым при

Размер эффекта Вопрос о клинической (практической) ценности (важности) наблюдаемого Размера Эффекта является
интерпретации результатов биомедицинских исследований, таких как диагностические исследования, клинические испытания и т.п.
Размер эффекта можно выражать в реальных единицах, а можно сделать его безразмерным – Стандартизированным.

Слайд 83

Стандартизированный размер эффекта по Коуэну (Cohen) dC

Стандартизированный размер эффекта по Коуэну (Cohen) dC

Слайд 84

Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/

Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/

Слайд 85

Результаты статистического сравнения групп матерей здоровых детей и детей с СЗРП, (1

Результаты статистического сравнения групп матерей здоровых детей и детей с СЗРП, (1
- α) = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

В данном примере абсолютный размер эффекта ES есть попросту разность средних:
ES = 26,652,177,6 у.е.
Стандартизированный размер эффекта по Коуэну:
dC = 1,87
Его можно интерпретировать как сильный (большой).

Слайд 86

Бейзов фактор, BF

Бейзов фактор – это показатель того, насколько хорошо две гипотезы

Бейзов фактор, BF Бейзов фактор – это показатель того, насколько хорошо две
могут предсказать данные.
Гипотеза, которая предсказывает наблюдаемые данные лучше – это та из них, которая имеет больше свидетельств в свою пользу. 
Бейзов фактор BF принципиально отличается от Р-значения.
Бейзов фактор не является вероятностью сам по себе, а является отношением вероятностей, и он может варьировать от нуля до бесконечности.
Он требует две гипотезы, тем самым четко указывая, что если есть свидетельства против нулевой гипотезы, то должны существовать свидетельства и в пользу альтернативной гипотезы.
BF01 = P{D|H0} / P{D|H1}
BF10 = P{D|H1} / P{D|H0}

Слайд 87

Интерпретация убедительности Бейзовых факторов, BF10 и BF01

Интерпретация убедительности Бейзовых факторов, BF10 и BF01

Слайд 88

Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor

Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor

Слайд 89

Вывод результатов (output)

В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемые различия
(ES

Вывод результатов (output) В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемые различия
= 52,1 у.е.) между сравниваемыми группами при условии, что верна гипотеза H1: ES ≠ 0, нежели при условии, что верна гипотеза H0: ES = 0.
Такое значение BF01 принято интерпретировать как чрезвычайно убедительное свидетельство против нулевой гипотезы H0: ES = 0 в пользу альтернативной гипотезы H1: ES ≠ 0.

Слайд 90

Статистические предсказания и воспроизводимость

Статистические предсказания и воспроизводимость

Слайд 91

Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и

Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и
детей с СЗРП. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm

Слайд 92

Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC

Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC

Слайд 93

Воспроизводимость и предсказания размеров эффекта ES и dC для групп матерей здоровых

Воспроизводимость и предсказания размеров эффекта ES и dC для групп матерей здоровых
детей и детей с СЗРП

При независимом повторении эксперимента эффект может не воспроизвестись и оказаться статистически незначимым (нижняя граница ПИ для Pval < 0,05) и размер эффекта по Коуэну может оказаться малым, достигая нижней границы ПИ для него: 0,5.

Слайд 94

Ошибки I и II рода и мощность статистического критерия

Ошибки I и II рода и мощность статистического критерия

Слайд 95

Диагностика

Болезнь

Тест

Диагностика Болезнь Тест

Слайд 96

Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия

Действи-тельность

Критерий

Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия Действи-тельность Критерий

Слайд 97

Компромисс

Например, в случае металлодетектора
повышение чувствительности прибора приведёт к увеличению риска ошибки первого

Компромисс Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска
рода (ложная тревога), а
понижение чувствительности - к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Слайд 98

Мощность статистического критерия

Мощность статистического критерия есть вероятность того, что критерий правильно отклонит

Мощность статистического критерия Мощность статистического критерия есть вероятность того, что критерий правильно
ложную нулевую гипотезу (правильно примет верную альтернативную гипотезу).
Традиционно ее обозначают (1 – β), где β - вероятность ошибки II рода.
Чем больше мощность критерия, тем меньше вероятность совершить ошибку II рода.

Слайд 99

Мощность статистического критерия

Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты).
Ее

Мощность статистического критерия Мощность статистического критерия измеряет способность критерия выявлять истинные различия
можно интерпретировать как чувствительность статистического критерия к отклонениям от условий нулевой гипотезы.

Слайд 100

Доверяя, повторяй

Часто считается, что если получен «статистически значимый» результат, то это исключает

Доверяя, повторяй Часто считается, что если получен «статистически значимый» результат, то это
необходимость повторить исследование.
Повторность (воспроизведение) часто рассматривается как нечто суетное и мирское.
«Проверка нулевой гипотезы есть метод обнаружения маловероятных событий, которые заслуживают дальнейшего изучения» (Fisher).

Слайд 101

Воспроизводимость P-значений и ДИ Cumming, G. (2008). Replication and p intervals: p

Воспроизводимость P-значений и ДИ Cumming, G. (2008). Replication and p intervals: p
values predict the future only vaguely, but confidence intervals do much better. Perspectives on Psychological Science, 3, 286-300. Программа ESCI PPS p intervals http://www.latrobe.edu.au/psy/esci/

Слайд 102

Анализ мощности a priori или post-hoc

Анализ мощности можно проводить либо a priori,

Анализ мощности a priori или post-hoc Анализ мощности можно проводить либо a
т.е. до получения данных, либо post hoc, т.е. после получения данных.
A priori анализ мощности обычно используется для оценки объема выборки N, необходимого для достижения приемлемой мощности.
Post hoc анализ мощности используется для оценки достигнутой мощности.
В этом случае предполагается, что наблюдаемый эффект и его варьирование равны истинным значениям параметров.

Слайд 103

Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/

Достигнутая мощность проведенного исследования составила
(1 –

Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/ Достигнутая мощность проведенного исследования
β) = 0,9987

Слайд 104

Элементы планирования эксперимента

Элементы планирования эксперимента

Слайд 105

Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3

Оценка a priori минимально необходимого объема выборки N для достижения

Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3 Оценка a priori минимально необходимого объема выборки N для
статистически значимого отличия наблюдаемой доли от ожидаемого значения при заданных уровне значимости α и мощности (1 – β).

Слайд 106

Оценка необходимых объемов выборок (a priori)

Для достижения приемлемой статистической мощности
(1 –

Оценка необходимых объемов выборок (a priori) Для достижения приемлемой статистической мощности (1
β) = 0,95
достаточно было иметь группы по 12 человек.

Слайд 107

Значение вероятностной P-величины

P-значение есть наблюдаемое значение (реализация) соответствующей случайной величины
Всякий раз мы

Значение вероятностной P-величины P-значение есть наблюдаемое значение (реализация) соответствующей случайной величины Всякий
наблюдаем одно из ее возможных значений.
Когда H0 верна, то Pval имеет непрерывное равномерное распределение на отрезке
[0; 1].

Слайд 108

Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования

Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования
нельзя делать определенные выводы.
Любое научное исследование должно повторяться многократно, и должна исследоваться воспроизводимость результатов.

Слайд 109

Научный метод

Ни один уважающий себя ученый не ограничится в своих исследованиях

Научный метод Ни один уважающий себя ученый не ограничится в своих исследованиях
одним-единственным экспериментом, хотя бы ради того, чтобы исключить неизбежные ошибки наблюдения, измерений, подсчетов и т. д.
Законы Менделя стали законами только после того, как их справедливость была продемонстрирована для всех диплоидных организмов, размножающихся половым путем – от растений до человека.
Смешно было бы, если Мйкельсон и Морли провели бы всего лишь одно измерение скорости света и на основании такого этого единственного измерения утверждали бы, что скорость света постоянна (в пределах точности измерения, которую и оценить-то невозможно, если измерение одно).

Слайд 110

Культ одиночного изолированного исследования

Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю

Культ одиночного изолированного исследования Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти
статистическую литературу и является серьезной болезнью статистического образования.
Конечно же, не всегда возможно собрать больше данных, и некоторые научные эксперименты столь дорогостоящи, что правомочно извлекать из данных как только возможно больше информации.
Однако, во многих других ситуациях можно и нужно собирать как можно больше данных, и это представляется благоразумным.
Наука не дается малой кровью.

Слайд 111

Повторение – мать познания

Повторение составляет суть науки:
ученый должен всегда задумываться о

Повторение – мать познания Повторение составляет суть науки: ученый должен всегда задумываться
том, что произойдет, если он или другой ученый повторят его эксперимент (Guttman, 1977).
Ученые разработали метод определения надежности (валидности) своих результатов.
Они научились задавать вопрос: воспроизводимы ли они? (Scherr, 1983).

Слайд 112

Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000)

Исследования должны быть как минимум двухэтапными.
Первый

Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000) Исследования должны быть
этап – разведочное (пилотное, порождающее гипотезы) исследование.
Второй этап – проверочное (подтверждающее или опровергающее) исследование.
Оно планируется на основе результатов разведочного исследования.
Имя файла: БМС-–Биомедстатистика.pptx
Количество просмотров: 137
Количество скачиваний: 0