БМС –Биомедстатистика

Февраль 15, 2021

Главная
Разное
БМС –Биомедстатистика

Содержание

2. Лекция 2. Гармонизация статистических доказательств и предсказаний
3. Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2. При этом надо помнить, что результат обследования является
4. Два основных типа Статистических Данных и их моделей Счетные Данные Счетные Данные получают путем подсчета объектов,
5. Пример: каковы признаки этой собаки? Качественные: Ее окрас - коричневый с черным У нее длинная шерсть
6. Цитокины и диагностика синдрома задержки развития плода (СЗРП) Королева Л.И.
7. СЗРП Термин Синдром задержки развития плода (СЗРП) используется для описания плода, масса которого гораздо меньше ожидаемой
8. СЗРП Плод с задержкой внутриутробного развития подвержен повышенному риску внутриутробной гибели или неонатальной смерти, асфиксии до
9. Содержание цитокина у 16 здоровых матерей и у 20 матерей с СЗРП
10. Гистограмма Гистограмма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание) — столбиковая диаграмма
11. Гистограммы содержания цитокина у матерей здоровых детей и детей с СЗРП Здоровые СЗРП
12. Сопоставление гистограмм содержания цитокина у матерей здоровых детей и детей с СЗРП
13. ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков
14. Распределения мерного диагностического признака у субъектов с болезнью и без нее Значения мерного диагностического признака Субъекты
15. Значения мерного диагностического признака Пороговое отсекающее значение
16. Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Истинные «позитивы» Истинные «позитивы»
17. Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Ложные «позитивы» Ложные «позитивы»
18. Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Истинные «негативы» Истинные «негативы»
19. Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Ложные «негативы» Ложные «негативы»
20. Операционная характеристика приёмника Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из теории обработки сигналов,
21. ROC-кривая – графическая характеристика качества диагностического теста, зависимость доли истинных позитивов среди субъектов с болезнью: Se
22. ROC-кривая для данных о содержании цитокина у матерей здоровых детей и детей с СЗРП. Программа AtteStat
23. Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании цитокина у матерей здоровых детей и
24. Нахождение оптимального порога отсечения, Tr0 = 121
25. Решающее правило: Значения признака, превышающие порог Tr0 = 121 или равные ему, принимаются за положительный результат
26. Хороший тест: Посредственный тест: Сравнение ROC-кривых
27. Наилучший тест: Наихудший тест: Распределения значений мерного признака не пересекаются вовсе Распределения значений мерного признака полностью
28. Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются
29. Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются
30. Результаты ROC-анализа Оптимальный порог отсечения: Tr = 121 AUC = 0,750,891,00 Указаны границы 99%-го ДИ для
31. «Площадь под кривой» AUC (Area Under Curve) - площадь под ROC-кривой - полезный обобщенный показатель качества
32. Идеальный, бесполезный и абсурдный тесты в терминах AUC Если тест идеальный, то AUC = 1. Если
33. Словесные интерпретации для градаций AUC
34. AUC = 50% AUC = 90% AUC = 65% AUC = 100% AUC для ROC-кривых
35. Обсуждение результатов 99%-й ДИ для AUC = 0,750,891,00 не накрывает неинформативное значение AUC = 0,50. Следовательно,
36. Результирующая таблица 2×2
37. Обсуждение результатов Se = 0,780,950,99 Sp = 0,660,880,93 99%-ые ДИ и для Se и для Sp
38. Обсуждение результатов LR[+] = 1,47,642 LR[-] = 0,0050,0570,71 99%-ые ДИ и для LR[+] и для LR[-]
39. Предостережение Подобные исследования следует рассматривать как сугубо предварительные (пилотные, разведочные, обучающие). Об этом свидетельствуют в частности
40. Одно распределение «вложено» в другое: ROC-анализ неприменим Гистограмма
41. Еще пример, когда ROC-анализ неприменим Гистограмма
42. Нормальные вероятностные графики Здоровые СЗРП
43. Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с СЗРП Все Р-значения превышают пороговое
44. Графики (диаграммы) «короб с усами», программа Instat+ http://www.rdg.ac.uk/ssc/software/instat/instat.html
45. Резко выделяющиеся значения – «выбросы» Выскакивающие значения можно и нужно выявлять. Но отбрасывать их следует на
46. Сжатие (свертка, редукция) статистических данных Статистика – любая функция от случайных величин, порождающих получаемые статистические данные.
47. Основная логика статистического оценивания: интервальные оценки Понятно, что если мы многократно повторим эксперимент, то вычисленные средние
48. Статистические гипотезы В обычном языке слово «гипотеза» означает предположение. В том же смысле оно употребляется и
49. Проверяемая гипотеза В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об отсутствии того или
50. Использование доверительных интервалов (ДИ) для проверки нулевых гипотез Например, для проверки нулевой гипотезы о равенстве двух
51. Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта
52. Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с СЗРП, 1-α = 0,99.
53. Статистики критериев (тестовые статистики) Тестовая статистика – статистика, используемая для проверки конкретной статистической гипотезы. Пример: статистика
54. Р-значение Для проверки нулевых гипотез с помощью статистических критериев основным приемом является вычисление значения вероятности, которое
55. Р-значение P-значение есть условная вероятность, а именно: Вероятность получить наблюдаемое значение tнабл. статистики некоего критерия T
56. Выбор порога для P-значения, и можно ли его обосновать? Когда наблюдаемое P-значение мало, то появляется соблазн
57. Андрей Николаевич Колмогоров (урождённый Катаев, 12(25).04.1903 — 20.10.1987) Пророк в своем отечестве
58. Колмогоров А. Н. Вероятность. ВиМСЭ (1951). С. 97: http://ru.science.wikia.com/wiki/Вероятность_(в_теории_вероятностей) При практическом употреблении вычисленных значений вероятности мы
59. Колмогоров, 1951, 1956 «Норма в 0,05 для серьезных научных исследований явно недостаточна» (1956). «Хотя в статистике
60. В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей различных генов, исследователи ориентируются
61. «Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong with significance tests?
62. Традиционная интерпретация P-значений (шкала Michelin)
63. Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с.
64. [0,05; 0,01] – «серая зона»
65. Sir Ronald Aylmer Fisher 17.02.1890 – 29.07.1962
66. Пожелание: «гибкие» P-значения «В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из
67. Результаты статистического сравнение групп матерей здоровых детей и детей с СЗРП, 1-α = 0,99. Программа ESCI
68. Основная логика использования Р-значений состоит в том, что если оно малó, то считается, что малоправдоподобно получить
69. Акт интеллектуальной смелости Когда P-значение очень мало, мы берем на себя смелость отклонить нулевую гипотезу (и
70. Распространенный соблазн Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так: чем меньше P-значение,
71. Распространенное заблуждение P-значение не есть вероятность нулевой гипотезы ! Поскольку P-значение вычисляется при условии, что справедлива
72. P-значение не есть вероятность нулевой гипотезы! К сожалению, даже в известной книге С.Гланца можно встретить утверждение:
73. Калибровка P-значения Sellke T., Bayarri M.J., Berger J.O. Calibration of p Values for Testing Precise Null
74. Калибровка P-значений Held L. A nomogram for P values. BMC Medical Research Methodology 2010, 10:21 doi:10.1186/1471-2288-10-21
78. «Цена» Р-значения Для наглядности значения в таблице округлены до первой значащей цифры. Более точно значения для
79. Бейзовская интерпретация Р-значения Обычно принято интерпретировать P-значения как меру доказательства, предоставляемого имеющимися данными, против нулевой гипотезы.
80. Привычка свыше нам дана Это прекрасно понимал Р.А. Фишер: «Критерий значимости не позволяет нам делать какие-либо
81. Статистическая значимость и размер эффекта Эффект (различие, связь, риск, польза, ассоциация и т. п.) может быть
82. Размер эффекта Вопрос о клинической (практической) ценности (важности) наблюдаемого Размера Эффекта является ключевым при интерпретации результатов
83. Стандартизированный размер эффекта по Коуэну (Cohen) dC
84. Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/
85. Результаты статистического сравнения групп матерей здоровых детей и детей с СЗРП, (1 - α) = 0,99.
86. Бейзов фактор, BF Бейзов фактор – это показатель того, насколько хорошо две гипотезы могут предсказать данные.
87. Интерпретация убедительности Бейзовых факторов, BF10 и BF01
88. Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor
89. Вывод результатов (output) В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемые различия (ES = 52,1 у.е.)
90. Статистические предсказания и воспроизводимость
91. Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с СЗРП. Программа
92. Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC
93. Воспроизводимость и предсказания размеров эффекта ES и dC для групп матерей здоровых детей и детей с
94. Ошибки I и II рода и мощность статистического критерия
95. Диагностика Болезнь Тест
96. Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия Действи-тельность Критерий
97. Компромисс Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная
98. Мощность статистического критерия Мощность статистического критерия есть вероятность того, что критерий правильно отклонит ложную нулевую гипотезу
99. Мощность статистического критерия Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты). Ее можно интерпретировать
100. Доверяя, повторяй Часто считается, что если получен «статистически значимый» результат, то это исключает необходимость повторить исследование.
101. Воспроизводимость P-значений и ДИ Cumming, G. (2008). Replication and p intervals: p values predict the future
102. Анализ мощности a priori или post-hoc Анализ мощности можно проводить либо a priori, т.е. до получения
103. Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/ Достигнутая мощность проведенного исследования составила (1 – β)
104. Элементы планирования эксперимента
105. Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3 Оценка a priori минимально необходимого объема выборки N для достижения статистически значимого отличия
106. Оценка необходимых объемов выборок (a priori) Для достижения приемлемой статистической мощности (1 – β) = 0,95
107. Значение вероятностной P-величины P-значение есть наблюдаемое значение (реализация) соответствующей случайной величины Всякий раз мы наблюдаем одно
108. Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования нельзя делать определенные выводы.
109. Научный метод Ни один уважающий себя ученый не ограничится в своих исследованиях одним-единственным экспериментом, хотя бы
110. Культ одиночного изолированного исследования Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю статистическую литературу и
111. Повторение – мать познания Повторение составляет суть науки: ученый должен всегда задумываться о том, что произойдет,
112. Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000) Исследования должны быть как минимум двухэтапными. Первый
114. Скачать презентацию

Лекция 2. Гармонизация статистических доказательств и предсказаний

Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2.
При этом надо помнить, что

результат обследования является бинарным (дихотомическим):
либо положительным, либо отрицательным, т.е. без промежуточных градаций.
Дихотомическое деление привлекательно своей простотой.
Однако такое упрощение является серьезным ограничением, поскольку результаты подобных обследований зачастую являются мерными.

Слайд 4

Два основных типа Статистических Данных и их моделей
Счетные Данные
Счетные Данные получают путем

подсчета объектов, предметов.
Моделью для них являются Дискретные Случайные Величины и, соответственно, Дискретные Распределения
Мерные Данные
Мерные Данные получаются путем измерения признаков.
Моделью для них являются Непрерывные Случайные Величины и, соответственно, Непрерывные Распределения.
Счетные данные подсчитываются.
Мерные данные измеряются.

Слайд 5

Пример: каковы признаки этой собаки?
Качественные:
Ее окрас - коричневый с черным
У нее длинная

шерсть
Она энергичная
Количественные:
счетные:
У нее 4 ноги
У нее два брата
мерные:
Ее вес – 25,5 кг
Ее рост (в холке) 56,5 см

Слайд 6

Цитокины и диагностика синдрома задержки развития плода (СЗРП)
Королева Л.И.

Слайд 7

СЗРП
Термин Синдром задержки развития плода (СЗРП) используется для описания плода, масса которого гораздо меньше

ожидаемой для данного гестационного возраста.
Плод/ребенок, масса тела которого попадает в нижние 10% распределения нормальной популяции данного гестационного возраста, рассматривается как имеющий СЗРП.
Оценка базируется на стандартизованных таблицах соотношения массы тела и гестационного возраста.
По данным отечественных авторов СЗРП в акушерской практике встречается с частотой от 5% до 17,6%.
Согласно последним отечественным данным частота (распространенность) СЗРП на протяжении последних 10 лет находилась в пределах 3,5 – 4,6%.

Слайд 8

СЗРП
Плод с задержкой внутриутробного развития подвержен повышенному риску внутриутробной гибели или неонатальной

смерти, асфиксии до или во время родов.
Сразу после рождения ему угрожает аспирация мекония, гипогликемия, гипотермия, РДС и множество других состояний.
Частота перинатальной смертности при СЗРП повышена в 7-10 раз, очень велика и перинатальная заболеваемость.
Перечисленные отрицательные обстоятельства показывают, как важно выявлять СЗРП еще до родов, оптимизировать условия внутриутробного развития плода, планировать и проводить роды, используя наиболее безопасные средства, и обеспечивать наилучший уход в послеродовом периоде.

Слайд 9

Содержание цитокина у 16 здоровых матерей и у 20 матерей с СЗРП

Слайд 10

Гистограмма
Гистограмма
(от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание)
— столбиковая диаграмма
— способ графического представления

табличных данных.

Слайд 11

Гистограммы содержания цитокина у матерей здоровых детей и детей с СЗРП
Здоровые
СЗРП

Слайд 12

Сопоставление гистограмм содержания цитокина у матерей здоровых детей и детей с СЗРП

Слайд 13

ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

Слайд 14

Распределения мерного диагностического признака у субъектов с болезнью и без нее
Значения мерного

диагностического признака

Субъекты с болезнью

Субъекты без болезни

Слайд 15

Значения мерного диагностического признака
Пороговое отсекающее значение

Слайд 16

Значения мерного диагностического признака
Субъекты без болезни
Субъекты с болезнью
Истинные «позитивы»
Истинные «позитивы»

Слайд 17

Значения мерного диагностического признака
Субъекты без болезни
Субъекты с болезнью
Ложные «позитивы»
Ложные «позитивы»

Слайд 18

Значения мерного диагностического признака
Субъекты без болезни
Субъекты с болезнью
Истинные «негативы»
Истинные «негативы»

Слайд 19

Значения мерного диагностического признака
Субъекты без болезни
Субъекты с болезнью
Ложные «негативы»
Ложные «негативы»

Слайд 20

Операционная характеристика приёмника
Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из теории обработки

сигналов,
Эту характеристику впервые ввели во время II мировой войны, после поражения американского военного флота в Пёрл Харборе в 1941 году, когда была осознана проблема повышения точности распознавания самолётов противника по радиолокационному сигналу.
Позже нашлись и другие применения: медицинская диагностика, приёмочный контроль качества, кредитный скоринг, предсказание лояльности клиентов, и т.д.

Слайд 21

ROC-кривая
– графическая характеристика качества диагностического теста,
зависимость доли истинных позитивов среди

субъектов с болезнью:
Se = f(T+|D+) = f(T+,D+)/f(D+)
от доли ложных позитивов среди субъектов с болезнью:
(1 - Sp) = f(T+|D-) = f(T+,D-)/f(D+)
при варьировании порога отсечения для распознавания наличия или отсутствия болезни.

Слайд 22

ROC-кривая для данных о содержании цитокина у матерей здоровых детей и детей

с СЗРП. Программа AtteStat http://attestatsoft.narod.ru/

Слайд 23

Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании цитокина у

матерей здоровых детей и детей с СЗРП

Порог отсечения Tr есть такое значение мерного диагностического признака, для которого расстояние от диагонали на ROC-кривой является максимальным.
В данном случае это точка, для которой
Se = 0,95 и Sp = 0,88

Слайд 24

Нахождение оптимального порога отсечения, Tr0 = 121

Слайд 25

Решающее правило:
Значения признака, превышающие порог Tr0 = 121 или равные ему, принимаются

за положительный результат диагностического теста.
Значения признака ниже порога Tr0 = 121 принимаются за отрицательный результат диагностического теста.

Слайд 26

Хороший тест:
Посредственный тест:
Сравнение ROC-кривых

Слайд 27

Наилучший тест:
Наихудший тест:
Распределения значений мерного признака не пересекаются вовсе
Распределения значений мерного признака

полностью совпадают

Предельные варианты ROC-кривых

Слайд 28

Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

Слайд 29

Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

Слайд 30

Результаты ROC-анализа
Оптимальный порог отсечения: Tr = 121
AUC = 0,750,891,00
Указаны границы 99%-го

ДИ для AUC.
Чувствительность: Se = 0,95
Специфичность: Sp = 0,88

Слайд 31

«Площадь под кривой»
AUC (Area Under Curve)
- площадь под ROC-кривой - полезный

обобщенный показатель качества диагностического теста.
Чем больше значение AUC, тем «лучше» способность диагностического теста распознавать наличие и отсутствие болезни,
Кроме того, данный показатель удобно использовать для сравнительного анализа нескольких методов диагностики.

Слайд 32

Идеальный, бесполезный и абсурдный тесты в терминах AUC
Если тест идеальный, то
AUC

= 1.
Если
AUC = 0,5,
то тест бесполезен.
Если
AUC < 0,5,
то тест следует признать абсурдным или даже «вредным».

Слайд 33

Словесные интерпретации для градаций AUC

Слайд 34

AUC = 50%
AUC = 90%
AUC = 65%
AUC = 100%
AUC для ROC-кривых

Слайд 35

Обсуждение результатов
99%-й ДИ для AUC = 0,750,891,00 не накрывает неинформативное значение AUC

= 0,50.
Следовательно, оцениваемое значение AUC статистически значимо отличается от бесполезного (неинформативного) значения 0,5 на уровне значимости α = 0,01.
Однако с практической точки зрения способность проверяемого диагностического теста распознавать наличие или отсутствие болезни следует признать всего лишь удовлетворительной, поскольку нижняя граница 99%-го ДИ для AUCL = 0,75 не выходит за границы соответствующего интервала (0,7 – 0,8).

Слайд 36

Результирующая таблица 2×2

Слайд 37

Обсуждение результатов
Se = 0,780,950,99
Sp = 0,660,880,93
99%-ые ДИ и для Se и для

Sp не накрывают неинформативные значения Se = 0,5 и Sp = 0,5.
Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений.
Поскольку нижняя граница 99%-го ДИ для Se превышает значение 0,7, то чувствительность проверяемого диагностического теста следует признать удовлетворительной.
Для Sp нижняя граница 99%-х ДИ не превышает значение 0,7.
Поэтому специфичность проверяемого диагностического теста следует признать посредственной.

Слайд 38

Обсуждение результатов
LR[+] = 1,47,642
LR[-] = 0,0050,0570,71
99%-ые ДИ и для LR[+] и для

LR[-] не накрывают неинформативные значения LR[+] = 1,0 и LR[-] = 1,0.
Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений.
Однако нижняя граница 99%-го ДИ для LR[+] не превышает значение 3,0, а верхняя граница 99%-го для LR[-] превышает значение 0,3.
Поэтому способность как положительных, так и отрицательных результатов данного диагностического теста распознавать как наличие, так и отсутствие болезни следует признать неудовлетворительными.

Слайд 39

Предостережение
Подобные исследования следует рассматривать как сугубо предварительные
(пилотные, разведочные, обучающие).
Об этом свидетельствуют

в частности чрезвычайно широкие доверительные интервалы (ДИ) для оцениваемых параметров.
Поэтому такие исследования надо обязательно повторить с выборками гораздо большего объема и удостовериться, воспроизводятся ли результаты.

Слайд 40

Одно распределение «вложено» в другое: ROC-анализ неприменим
Гистограмма

Слайд 41

Еще пример, когда ROC-анализ неприменим
Гистограмма

Слайд 42

Нормальные вероятностные графики
Здоровые
СЗРП

Слайд 43

Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с СЗРП
Все

Р-значения превышают пороговое значение 0,05.
Следовательно у нас нет оснований сомневаться в гипотезе о нормальности распределения, порождающего наблюдаемые данные.

Слайд 44

Графики (диаграммы) «короб с усами», программа Instat+ http://www.rdg.ac.uk/ssc/software/instat/instat.html

Слайд 45

Резко выделяющиеся значения – «выбросы»
Выскакивающие значения можно и нужно выявлять.
Но отбрасывать

их следует на основе внестатистических соображений.
Например, если записано значение для артериального давления 1100, то очевидно, что здесь опечатка: лишняя 1 или лишний 0.

Слайд 46

Сжатие (свертка, редукция) статистических данных
Статистика – любая функция от случайных величин, порождающих

получаемые статистические данные.
Простейший пример - выборочное среднее:

Слайд 47

Основная логика статистического оценивания: интервальные оценки
Понятно, что если мы многократно повторим эксперимент,

то вычисленные средние значения неизбежно будут варьировать.
Поэтому задача математиков – вывести математический закон (вероятностное распределение), которому подчиняется варьирование этих выборочных средних.
Если такой закон найден, то тогда можно построить доверительные интервалы (ДИ) для оцениваемого среднего с заданной доверительной вероятностью
(1 – α).

Слайд 48

Статистические гипотезы
В обычном языке слово «гипотеза» означает предположение.
В том же смысле

оно употребляется и в научном языке для предположений, вызывающих сомнения.
В математической статистике, термин «гипотеза» означает предположение, которое не только вызывает сомнения, но и которое мы собираемся в данный момент проверить.
Проверка статистической гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимися данными.

Слайд 49

Проверяемая гипотеза
В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об

отсутствии того или иного эффекта:
об отсутствии различий, например, о равенстве нулю разности средних;
об отсутствии тех или иных эффектов, связей, соответствий, зависимостей и т.п.
Поэтому проверяемую гипотезу принято назвать нулевой и обозначать символом H0.

Слайд 50

Использование доверительных интервалов (ДИ) для проверки нулевых гипотез
Например, для проверки нулевой гипотезы

о равенстве двух средних:
H0: M1 – M2 = 0
можно построить ДИ для разности средних.
Тогда, если вычисленный 100(1 – α)%-й ДИ не накрывает постулируемое этой гипотезой значение 0, то отклонение оцениваемой разности от 0 можно признать статистически значимым на заранее выбранном уровне значимости α.

Слайд 51

Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта

Слайд 52

Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с

СЗРП, 1-α = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

99%-й ДИ для разности средних не накрывает значение 0.
Следовательно оцениваемая разность статистически значимо отличается от 0 на уровне значимости 0,01.
Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную.

Слайд 53

Статистики критериев (тестовые статистики)
Тестовая статистика – статистика, используемая для проверки конкретной статистической

гипотезы.
Пример: статистика t-критерия Стьюдента
В этом случае проверка гипотезы H0 о равенстве двух средних: H0: M1 – M2 = 0 сводится к проверке гипотезы о том, что t = 0.
Когда эта нулевая гипотеза верна, то распределение этой статистики известно – это t-распределение Стьюдента с параметром (числом степеней свободы), равным df.

Слайд 54

Р-значение
Для проверки нулевых гипотез с помощью статистических критериев основным приемом является

вычисление значения вероятности, которое называется Р-значением.

Слайд 55

Р-значение
P-значение есть условная вероятность, а именно:
Вероятность получить наблюдаемое значение tнабл. статистики

некоего критерия T и все остальные еще менее вероятные значения этой статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна нулевая гипотеза H0:
Pval = Pr[|T| ≥ |tнабл.| | H0].
Тут следует обратить внимание на то, что «еще менее вероятные данные» не являются «данными», мы их не наблюдаем.
Мы их додумываем из всех возможных значений в рамках выбранной нами (нулевой) модели.

Слайд 56

Выбор порога для P-значения, и можно ли его обосновать?
Когда наблюдаемое P-значение мало,

то появляется соблазн отвергнуть H0.
Однако нет никаких статистических соображений, какое значение P следует считать настолько малым, чтобы смело отклонить H0.
Это решение является внестатистическим.
На практике решение отклонить или принять H0 должно зависеть от обстоятельств.
Исследователь в каждой конкретной ситуации должен сам сделать этот выбор.

Слайд 57

Андрей Николаевич Колмогоров (урождённый Катаев, 12(25).04.1903 — 20.10.1987)
Пророк в своем отечестве

Слайд 58

Колмогоров А. Н. Вероятность. ВиМСЭ (1951). С. 97: http://ru.science.wikia.com/wiki/Вероятность_(в_теории_вероятностей)
При практическом употреблении вычисленных значений

вероятности мы неизбежно приходим к вопросу о том, сколь малыми значениями вероятностей мы можем пренебречь.
В математической статистике вероятность, которой решено пренебрегать в данном исследовании, называют уровнем значимости.
На практике этот вопрос решается каждый раз по-разному, в зависимости от того, насколько велика необходимость быстрого перехода от накопления надежных данных к их действительному употреблению.

Слайд 59

Колмогоров, 1951, 1956
«Норма в 0,05 для серьезных научных исследований явно недостаточна» (1956).

«Хотя в статистике обычно рекомендуют пользоваться уровнями значимости от 0,05 при предварительных ориентировочных исследованиях и до 0,001 при окончательных серьезных выводах, часто достижима значительно большая достоверность [статистическая значимость – НХ] вероятностных выводов.
Например, основные выводы статистической физики основаны на пренебрежении лишь вероятности порядка меньшего 0, 000 000 000 1 (<10-10)» (1951).
Воспроизведено в: Колмогоров А. Н. В кн.: Вероятность и математическая статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. — М.: Изд-во «Большая Российская Энциклопедия», 1999. – c. 97 и 975.

Слайд 60

В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей

различных генов, исследователи ориентируются на Р-значения порядка
10-7.
При таком уровне значимости приходится обследовать сотни тысяч людей.
Но даже при столь суровой требовательности результаты далеко не всегда воспроизводятся в повторных проверочных исследованиях.

Слайд 61

«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s

wrong with significance tests? BMJ, 2001. – Vol. 322. – P. 227-231.

В наши дни Колмогорову вторят зарубежные авторы:
P-значение близкое к 0,05 не является сильным свидетельством против нулевой гипотезы.
Сильными свидетельствами против Н0 следует признавать значения P < 0,001.
В публикациях надо представлять точные P-значения без соотнесения их с какими-либо пороговыми (критическими) значениями (типа 0,05).
Наравне с P-значениями нужно указывать доверительные интервалы.

Слайд 62

Традиционная интерпретация P-значений (шкала Michelin)

Слайд 63

Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ,

1982. – 264 с.

Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор.
В настоящее время многие биометрики склоняются к следующему правилу:
а) если P > 0,05, то принимается нулевая гипотеза;
б) если P < 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая;
в) если 0,01 < P < 0,05, то результат считается неопределенным.

Слайд 64

[0,05; 0,01] – «серая зона»

Слайд 65

Sir Ronald Aylmer Fisher 17.02.1890 – 29.07.1962

Слайд 66

Пожелание: «гибкие» P-значения
«В действительности ни один исследователь не пользуется фиксированным уровнем значимости

с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы.
Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений».
R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956

Слайд 67

Результаты статистического сравнение групп матерей здоровых детей и детей с СЗРП, 1-α

= 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

Слайд 68

Основная логика использования Р-значений состоит в том, что если оно малó, то

считается, что малоправдоподобно получить имеющиеся данные при условии, что справедлива нулевая гипотеза.
Как следствие делается вывод, что в таком случае малоправдоподобна и сама нулевая гипотеза.
Это считается достаточным аргументом для того, чтобы отклонить Н0 и принять альтернативную гипотезу Н0.
В данном случае Pval = 3∙10-6.
Вывод: различие в содержании цитокина у матерей здоровых детей и детей с СЗРП статистически высоко значимо; во второй группе оно выше, чем в первой.

Слайд 69

Акт интеллектуальной смелости
Когда P-значение очень мало, мы берем на себя смелость отклонить

нулевую гипотезу (и принять альтернативную).
Всякий раз, принимая решение отклонить или принять нулевую гипотезу, мы совершаем акт интеллектуальной смелости.
И этот акт является внестатистическим.

Слайд 70

Распространенный соблазн
Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так:

чем меньше P-значение, тем весомее доводы против нулевой гипотезы H0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться в H0.
Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать P-значение как вероятность нулевой гипотезы.

Слайд 71

Распространенное заблуждение
P-значение не есть вероятность нулевой гипотезы !
Поскольку P-значение вычисляется
при условии,
что справедлива

нулевая гипотеза H0:
Pval = Pr{|D| ≥ |dнабл.||H0},
то оно никак не может быть вероятностью нулевой гипотезы:
P{D|H0} ≠ P{H0|D}

Слайд 72

P-значение не есть вероятность нулевой гипотезы!
К сожалению, даже в известной книге

С.Гланца можно встретить утверждение:
«Упрощая, можно сказать, что Р — это вероятность справедливости нулевой гипотезы»
Гланц С. Медико-биологическая статистика. — М.: Практика, 1998. — с. 119.
Это мнение глубоко ошибочно и чревато пагубными последствиями.
К чести автора, в последующих (у нас не переведенных) изданиях этой его книги оно отсутствует.

Слайд 73

Калибровка P-значения
Sellke T., Bayarri M.J., Berger J.O.
Calibration of p Values for Testing

Precise Null Hypotheses
The American Statistician, Vol. 55, No. 1. (2001), pp. 62-71.
При

Слайд 74

Калибровка P-значений
Held L. A nomogram for P values.
BMC Medical Research Methodology 2010,

10:21 doi:10.1186/1471-2288-10-21
http://www.biostat.uzh.ch/static/pnomogram/

Слайд 75

Слайд 76

Слайд 77

Слайд 78

«Цена» Р-значения
Для наглядности значения в таблице округлены до первой значащей цифры.

Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и 1,8%.
Chow SC, Shao J, and Wang, H. Sample Size Calculations in Clinical Research. Second edition, Chapman Hall/CRC Press, Taylor & Francis, New York, New York. P. 6, Table 1.1.2.

Слайд 79

Бейзовская интерпретация Р-значения
Обычно принято интерпретировать P-значения как меру доказательства, предоставляемого имеющимися

данными, против нулевой гипотезы.
Однако с точки зрения бейзовской статистики Р-значение есть всего лишь вероятность того, что при повторении эксперимента будет получена разность средних с противоположным знаком.
При такой интерпретации понятно, что Р-значение ничего не говорит ни о вероятности нулевой гипотезы P{H0|D}, ни о размере эффекта, в данном случае о разности средних.

Слайд 80

Привычка свыше нам дана
Это прекрасно понимал Р.А. Фишер:
«Критерий значимости не позволяет

нам делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности» (Fisher R.A. The design of experiments. Edinburgh: Oliver & Boyd, 1935).
Тем не менее многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на Р-значение,
игнорируя практическую (клиническую) важность полученных ими результатов, игнорируя размер эффекта.

Слайд 81

Статистическая значимость и размер эффекта
Эффект (различие, связь, риск, польза, ассоциация и т.

п.) может быть статистически значимым, но его практическая (например, клиническая) ценность может оказаться ничтожной.
«Статистически значимый» не означает «значительный», «практически важный», «ценный».
Эффекты могут быть реальными, неслучайными, но практически пренебрежимо малыми.

Слайд 82

Размер эффекта
Вопрос о клинической (практической) ценности (важности) наблюдаемого
Размера Эффекта
является ключевым при

интерпретации результатов биомедицинских исследований, таких как диагностические исследования, клинические испытания и т.п.
Размер эффекта можно выражать в реальных единицах, а можно сделать его безразмерным – Стандартизированным.

Слайд 83

Стандартизированный размер эффекта по Коуэну (Cohen) dC

Слайд 84

Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/

Слайд 85

Результаты статистического сравнения групп матерей здоровых детей и детей с СЗРП, (1

- α) = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

В данном примере абсолютный размер эффекта ES есть попросту разность средних:
ES = 26,652,177,6 у.е.
Стандартизированный размер эффекта по Коуэну:
dC = 1,87
Его можно интерпретировать как сильный (большой).

Слайд 86

Бейзов фактор, BF
Бейзов фактор – это показатель того, насколько хорошо две гипотезы

могут предсказать данные.
Гипотеза, которая предсказывает наблюдаемые данные лучше – это та из них, которая имеет больше свидетельств в свою пользу.
Бейзов фактор BF принципиально отличается от Р-значения.
Бейзов фактор не является вероятностью сам по себе, а является отношением вероятностей, и он может варьировать от нуля до бесконечности.
Он требует две гипотезы, тем самым четко указывая, что если есть свидетельства против нулевой гипотезы, то должны существовать свидетельства и в пользу альтернативной гипотезы.
BF01 = P{D|H0} / P{D|H1}
BF10 = P{D|H1} / P{D|H0}

Слайд 87

Интерпретация убедительности Бейзовых факторов, BF10 и BF01

Слайд 88

Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor

Слайд 89

Вывод результатов (output)
В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемые различия
(ES

= 52,1 у.е.) между сравниваемыми группами при условии, что верна гипотеза H1: ES ≠ 0, нежели при условии, что верна гипотеза H0: ES = 0.
Такое значение BF01 принято интерпретировать как чрезвычайно убедительное свидетельство против нулевой гипотезы H0: ES = 0 в пользу альтернативной гипотезы H1: ES ≠ 0.

Слайд 90

Статистические предсказания и воспроизводимость

Слайд 91

Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и

детей с СЗРП. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm

Слайд 92

Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC

Слайд 93

Воспроизводимость и предсказания размеров эффекта ES и dC для групп матерей здоровых

детей и детей с СЗРП

При независимом повторении эксперимента эффект может не воспроизвестись и оказаться статистически незначимым (нижняя граница ПИ для Pval < 0,05) и размер эффекта по Коуэну может оказаться малым, достигая нижней границы ПИ для него: 0,5.

Слайд 94

Ошибки I и II рода и мощность статистического критерия

Слайд 95

Диагностика
Болезнь
Тест

Слайд 96

Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия
Действи-тельность
Критерий

Слайд 97

Компромисс
Например, в случае металлодетектора
повышение чувствительности прибора приведёт к увеличению риска ошибки первого

рода (ложная тревога), а
понижение чувствительности - к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Слайд 98

Мощность статистического критерия
Мощность статистического критерия есть вероятность того, что критерий правильно отклонит

ложную нулевую гипотезу (правильно примет верную альтернативную гипотезу).
Традиционно ее обозначают (1 – β), где β - вероятность ошибки II рода.
Чем больше мощность критерия, тем меньше вероятность совершить ошибку II рода.

Слайд 99

Мощность статистического критерия
Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты).
Ее

можно интерпретировать как чувствительность статистического критерия к отклонениям от условий нулевой гипотезы.

Слайд 100

Доверяя, повторяй
Часто считается, что если получен «статистически значимый» результат, то это исключает

необходимость повторить исследование.
Повторность (воспроизведение) часто рассматривается как нечто суетное и мирское.
«Проверка нулевой гипотезы есть метод обнаружения маловероятных событий, которые заслуживают дальнейшего изучения» (Fisher).

Слайд 101

Воспроизводимость P-значений и ДИ Cumming, G. (2008). Replication and p intervals: p

values predict the future only vaguely, but confidence intervals do much better. Perspectives on Psychological Science, 3, 286-300. Программа ESCI PPS p intervals http://www.latrobe.edu.au/psy/esci/

Слайд 102

Анализ мощности a priori или post-hoc
Анализ мощности можно проводить либо a priori,

т.е. до получения данных, либо post hoc, т.е. после получения данных.
A priori анализ мощности обычно используется для оценки объема выборки N, необходимого для достижения приемлемой мощности.
Post hoc анализ мощности используется для оценки достигнутой мощности.
В этом случае предполагается, что наблюдаемый эффект и его варьирование равны истинным значениям параметров.

Слайд 103

Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/
Достигнутая мощность проведенного исследования составила
(1 –

β) = 0,9987

Слайд 104

Элементы планирования эксперимента

Слайд 105

Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3
Оценка a priori минимально необходимого объема выборки N для достижения

статистически значимого отличия наблюдаемой доли от ожидаемого значения при заданных уровне значимости α и мощности (1 – β).

Слайд 106

Оценка необходимых объемов выборок (a priori)
Для достижения приемлемой статистической мощности
(1 –

β) = 0,95
достаточно было иметь группы по 12 человек.

Слайд 107

Значение вероятностной P-величины
P-значение есть наблюдаемое значение (реализация) соответствующей случайной величины
Всякий раз мы

наблюдаем одно из ее возможных значений.
Когда H0 верна, то Pval имеет непрерывное равномерное распределение на отрезке
[0; 1].

Слайд 108

Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования

нельзя делать определенные выводы.
Любое научное исследование должно повторяться многократно, и должна исследоваться воспроизводимость результатов.

Слайд 109

Научный метод
Ни один уважающий себя ученый не ограничится в своих исследованиях

одним-единственным экспериментом, хотя бы ради того, чтобы исключить неизбежные ошибки наблюдения, измерений, подсчетов и т. д.
Законы Менделя стали законами только после того, как их справедливость была продемонстрирована для всех диплоидных организмов, размножающихся половым путем – от растений до человека.
Смешно было бы, если Мйкельсон и Морли провели бы всего лишь одно измерение скорости света и на основании такого этого единственного измерения утверждали бы, что скорость света постоянна (в пределах точности измерения, которую и оценить-то невозможно, если измерение одно).

Слайд 110

Культ одиночного изолированного исследования
Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю

статистическую литературу и является серьезной болезнью статистического образования.
Конечно же, не всегда возможно собрать больше данных, и некоторые научные эксперименты столь дорогостоящи, что правомочно извлекать из данных как только возможно больше информации.
Однако, во многих других ситуациях можно и нужно собирать как можно больше данных, и это представляется благоразумным.
Наука не дается малой кровью.

Слайд 111

Повторение – мать познания
Повторение составляет суть науки:
ученый должен всегда задумываться о

том, что произойдет, если он или другой ученый повторят его эксперимент (Guttman, 1977).
Ученые разработали метод определения надежности (валидности) своих результатов.
Они научились задавать вопрос: воспроизводимы ли они? (Scherr, 1983).

Слайд 112

Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000)
Исследования должны быть как минимум двухэтапными.
Первый

этап – разведочное (пилотное, порождающее гипотезы) исследование.
Второй этап – проверочное (подтверждающее или опровергающее) исследование.
Оно планируется на основе результатов разведочного исследования.

БМС –Биомедстатистика

Содержание

Лекция 2. Гармонизация статистических доказательств и предсказаний

Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2.При этом надо помнить, что

Два основных типа Статистических Данных и их моделейСчетные ДанныеСчетные Данные получают путем

Пример: каковы признаки этой собаки?Качественные:Ее окрас - коричневый с чернымУ нее длинная

Цитокины и диагностика синдрома задержки развития плода (СЗРП)Королева Л.И.

СЗРПТермин Синдром задержки развития плода (СЗРП) используется для описания плода, масса которого гораздо меньше

СЗРППлод с задержкой внутриутробного развития подвержен повышенному риску внутриутробной гибели или неонатальной

Содержание цитокина у 16 здоровых матерей и у 20 матерей с СЗРП

ГистограммаГистограмма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание)— столбиковая диаграмма — способ графического представления

Гистограммы содержания цитокина у матерей здоровых детей и детей с СЗРПЗдоровыеСЗРП

Сопоставление гистограмм содержания цитокина у матерей здоровых детей и детей с СЗРП

ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

Распределения мерного диагностического признака у субъектов с болезнью и без нееЗначения мерного

Значения мерного диагностического признакаПороговое отсекающее значение

Значения мерного диагностического признакаСубъекты без болезниСубъекты с болезньюИстинные «позитивы»Истинные «позитивы»

Значения мерного диагностического признакаСубъекты без болезниСубъекты с болезньюЛожные «позитивы»Ложные «позитивы»

Значения мерного диагностического признакаСубъекты без болезниСубъекты с болезньюИстинные «негативы»Истинные «негативы»

Значения мерного диагностического признакаСубъекты без болезниСубъекты с болезньюЛожные «негативы»Ложные «негативы»

Операционная характеристика приёмникаТермин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из теории обработки

ROC-кривая – графическая характеристика качества диагностического теста, зависимость доли истинных позитивов среди

ROC-кривая для данных о содержании цитокина у матерей здоровых детей и детей

Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании цитокина у

Нахождение оптимального порога отсечения, Tr0 = 121

Решающее правило:Значения признака, превышающие порог Tr0 = 121 или равные ему, принимаются

Хороший тест:Посредственный тест:Сравнение ROC-кривых

Наилучший тест:Наихудший тест:Распределения значений мерного признака не пересекаются вовсеРаспределения значений мерного признака

Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

Результаты ROC-анализаОптимальный порог отсечения: Tr = 121 AUC = 0,750,891,00Указаны границы 99%-го

«Площадь под кривой»AUC (Area Under Curve) - площадь под ROC-кривой - полезный

Идеальный, бесполезный и абсурдный тесты в терминах AUCЕсли тест идеальный, то AUC

Словесные интерпретации для градаций AUC

AUC = 50%AUC = 90%AUC = 65%AUC = 100%AUC для ROC-кривых

Обсуждение результатов99%-й ДИ для AUC = 0,750,891,00 не накрывает неинформативное значение AUC