Байесова филогенетика

Содержание

Слайд 2

Проблема конкурирующих гипотез и метод проб и ошибок

Примеры гипотез:
Встречу ли я динозавра, выйдя

Проблема конкурирующих гипотез и метод проб и ошибок Примеры гипотез: Встречу ли
на улицу?
Гипотезы: встречу – не встречу
50% и 50% ??????

Слайд 3

Проблема конкурирующих гипотез и метод проб и ошибок

Примеры гипотез:
Встречу ли я динозавра, выйдя

Проблема конкурирующих гипотез и метод проб и ошибок Примеры гипотез: Встречу ли
на улицу?
Гипотезы: встречу – не встречу
50% и 50% ??????
Проверка гипотез при помощи эмпирических испытаний позволяет изменить первичную оценку вероятности гипотез

Слайд 4

Если мы вынули из ящика 21 белый шар, то это точно
гипотеза

Если мы вынули из ящика 21 белый шар, то это точно гипотеза
H1
Но не обязательно вынимать 21 белый шар
и тем более все шары:
Можно вынимать по одному, и сам факт преобладания
белых шаров постепенно повышает вероятность H1

Слайд 5

Проблема конкурирующих гипотез и метод проб и ошибок

Примеры гипотез:
Филогенетическая реконструкция: топология 1, топология

Проблема конкурирующих гипотез и метод проб и ошибок Примеры гипотез: Филогенетическая реконструкция:
2 … топологияn
Каждый вариант – гипотеза. Какую выбрать?

Слайд 6

Проблема конкурирующих гипотез

Решения:
MP: выбираем наиболее простую гипотезу
ML: выбираем наиболее правдоподобную гипотезу
НО:
1)

Проблема конкурирующих гипотез Решения: MP: выбираем наиболее простую гипотезу ML: выбираем наиболее
за бортом остаются все другие гипотезы (слишком упрощенное решение)
Хорошо бы оценивать вероятность “лучшей” гипотезы в процентах
А еще лучше иметь совокупность всех гипотез с оценками их вероятностей

Слайд 7

Проблема конкурирующих гипотез
А еще лучше иметь совокупность всех гипотез с прямыми оценками

Проблема конкурирующих гипотез А еще лучше иметь совокупность всех гипотез с прямыми
их вероятностей
Есть ли такой метод? Да! Байесова статистика!
Она основана на выдвижении предварительных (априорных) гипотез и их испытании методом взятия проб. После взятия пробы можно рассчитать вероятность постериорной гипотезы

Слайд 8

Метод Байеса (Bayes Inference)

Thomas Bayes
1702-1761 England

Байесова статистика .
Обычная статистика рассматривает вероятности (частоты

Метод Байеса (Bayes Inference) Thomas Bayes 1702-1761 England Байесова статистика . Обычная
статистических распределений) как константные величины.
Байесова статистика рассматривает вероятности (частоты статистических распределений) как предварительные гипотезы (priors), которые могут быть уточнены в ходе анализа.

Слайд 9

Метод Байеса (Bayes Inference) основные понятия:
Априорная вероятность гипотезы
Постериорная вероятность гипотезы
правдоподобие гипотезы (вероятность

Метод Байеса (Bayes Inference) основные понятия: Априорная вероятность гипотезы Постериорная вероятность гипотезы
наблюдения данных при условии, что гипотеза верна)

Слайд 10

Априорные и постериорные гипотезы
Схема анализа:
1) выбираются (задаются) априорные гипотезы (вероятности)
2) получение данных

Априорные и постериорные гипотезы Схема анализа: 1) выбираются (задаются) априорные гипотезы (вероятности)
(эмпирическое тестирование)
3) на основании проведенных испытаний рассчитываются постериорные гипотезы (вероятности)

Слайд 11

H1 –гипотеза 1
Н2 – гипотеза 2
E - испытание
(P(H1/E) – постериорная вероятность гипотезы

H1 –гипотеза 1 Н2 – гипотеза 2 E - испытание (P(H1/E) –
H1
(после получения данных E, т.е. после проведенного испытания E)
P(H1) – априорная вероятность гипотезы H1
P(E/H1) – вероятность наблюдения данных при условии,
что гипотеза H1 верна (=правдоподобие гипотезы)
В числителе P(E/H1) P(H1) – произведение вероятности наблюдения
данных на априорную вероятность данной гипотезы
В знаменателе – сумма произведений P(E/H1) P(H1) для
каждой из альтернативных гипотез (H1, H2 и т.д.)

Тестирование двух гипотез – H1 и H2

Слайд 12

P априорное для H1 = 0.5
P априорное для H2 = 0.5

P априорное для H1 = 0.5 P априорное для H2 = 0.5

Слайд 13

Правдоподобие для H1 = 0.75 (вероятность, что первый вынутый шар будет белым)
Правдоподобие

Правдоподобие для H1 = 0.75 (вероятность, что первый вынутый шар будет белым)
для H2 = 0.5 (вероятность, что первый вынутый шар будет белым)

Слайд 14

P(H1) – априорная вероятность гипотезы H1
(P(H1/E) – постериорная вероятность гипотезы H1
P(E/H1) –

P(H1) – априорная вероятность гипотезы H1 (P(H1/E) – постериорная вероятность гипотезы H1
вероятность наблюдения данных при условии,
что гипотеза H1 верна (=правдоподобие гипотезы)
В числителе P(E/H1) P(H1) – произведение вероятности наблюдения
данных на априорную вероятность данной гипотезы
В знаменателе – сумма произведений P(E/H1) P(H1) для
каждой из альтернативных гипотез (H1, H2 и т.д.)

Слайд 15

Итеративная процедура – многократное возвращение к тестированию исходной гипотезы, но каждый раз

Итеративная процедура – многократное возвращение к тестированию исходной гипотезы, но каждый раз
с учетом уже измененной априорной вероятности

Слайд 16

Вторая итерация априорные вероятности гипотез уже другие P(H1)=0.6; P(H2)=0.4

Р = (0.6 х 0.75)/(0.6 х

Вторая итерация априорные вероятности гипотез уже другие P(H1)=0.6; P(H2)=0.4 Р = (0.6
0.75 + 0.4 х 0.5) = 0.45/(0.45 + 0.2) = 0.69

Слайд 17

Р = (0.69 х 0.75)/(0.69 х 0.75 + 0.31 х 0.5) =

Р = (0.69 х 0.75)/(0.69 х 0.75 + 0.31 х 0.5) =
0.5175/(0.5175 + 0.155) = 0.5175/0.6725 = 0.77

Третья итерация: априорные вероятности снова изменились P(H1)=0.69; P(H2)=0.31

Слайд 18

Продолжаем процесс до тех пор пока вероятность одной из гипотез не достигнет

Продолжаем процесс до тех пор пока вероятность одной из гипотез не достигнет
100% [P(H1)=1], т.е. гипотеза доказана
(или до стационарного уровня, когда вероятность гипотез стабилизируется)

Слайд 19

Лодка затонула 21 мая 1968 годаЛодка затонула 21 мая 1968 года в 740 км (400

Лодка затонула 21 мая 1968 годаЛодка затонула 21 мая 1968 года в
миль) к юго-западу от Азорских острововЛодка затонула 21 мая 1968 года в 740 км (400 миль) к юго-западу от Азорских островов[1]Лодка затонула 21 мая 1968 года в 740 км (400 миль) к юго-западу от Азорских островов[1] на глубине в 3000 м (9800 футов), за 5 дней до возвращения на базу вНорфолк. Официально о потере USS Scorpion (SSN-589) было объявлено 5 июня 1968 года.

Слайд 21

Как все это перенести на реконструкцию филогении?
- нужны предварительные гипотезы
- нужны значения

Как все это перенести на реконструкцию филогении? - нужны предварительные гипотезы - нужны значения правдоподобий
правдоподобий

Слайд 22

Метод максимального
правдоподобия

JC model Вероятности всех замен одинаковы, т.е. P(AC)=P(AG)=P(AT)=P(CG)=P(CT)=P(GT)=α частоты нуклеотидов равны,
т.е. f(A)=f(C)=f(G)=f(T)=0.25
Pxy

Метод максимального правдоподобия JC model Вероятности всех замен одинаковы, т.е. P(AC)=P(AG)=P(AT)=P(CG)=P(CT)=P(GT)=α частоты
= α = 1/16=0,0625
Ptree = 0.25xαxαxαxα =
= 0.25x0.0625x0.0625x0.0625x0.0625
=0.00000381

Слайд 24

Теперь вопрос, как перейти к филогенетическим гипотезам, т.е. деревьям

Теперь вопрос, как перейти к филогенетическим гипотезам, т.е. деревьям

Слайд 25

• В филогенетике эволюционные модели составляют очень большое число гипотез: (каждая уникальная

• В филогенетике эволюционные модели составляют очень большое число гипотез: (каждая уникальная
комбинация дерева [топологии] и параметров может быть представлена в виде отдельной гипотезы
Как использовать Байесову статистику, когда гипотезы составляют непрерывный ряд (континуум)?

Слайд 26

анализировать не отдельные гипотезы (их может быть неограниченное множество), а статистические распределения

анализировать не отдельные гипотезы (их может быть неограниченное множество), а статистические распределения этих гипотез
этих гипотез

Слайд 31

Униформный (неспецифический прайор), казалось бы, какая от него польза.
Но вспомним про итеративность…

Униформный (неспецифический прайор), казалось бы, какая от него польза. Но вспомним про
Итерации постепенно сдвигают распределение к более информативному

Слайд 33

Еще один прием: расчленить тестируемую гипотезу: представить ее в виде совокупности более

Еще один прием: расчленить тестируемую гипотезу: представить ее в виде совокупности более простых гипотез
простых гипотез

Слайд 34

В случае филогенетической гипотезы вместо дерева можно дать совокупность:
1) топология
2) информация о

В случае филогенетической гипотезы вместо дерева можно дать совокупность: 1) топология 2)
длине ветвей
3) частоты нуклеотидов
4) вероятности нуклеотидных замен разного типа
5) распределение вероятности замен по длине нуклеотидного выравнивания (параметр гамма)
6) доля инвариантных сайтов
(1) и (2) – параметры самого дерева
(3-6) – параметры ассоциированные с деревом

Слайд 35

1) прайор о топологии
2) прайор о длине ветвей
3) прайор о частотах нуклеотидов
4)

1) прайор о топологии 2) прайор о длине ветвей 3) прайор о
прайор о вероятности нуклеотидных замен разного типа
5) прайор о распределение вероятности замен по длине нуклеотидного выравнивания (параметр гамма)
6) прайор о доле инвариантных сайтов
Как рассчитать эти прайоры?
(3-6) мы можем взять прямо из матрицы данных
Для (1) и (2) можно использовать униформные (неспецифические прайоры)

То есть априорную гипотезу о распределении деревьев можно
представить в виде совокупности 6 более простых априорных гипотез
(прайоров):

Слайд 37

При проведении анализа запускается несколько цепей (обычно 4), каждая из которых ищет

При проведении анализа запускается несколько цепей (обычно 4), каждая из которых ищет
оптимальные деревья
Цепи могут обмениваться информацией, что позволяет “проскакивать” локальные оптимумы
Получаемые деревья сравниваются и рассчитываются стандартные отклонения в положении ветвей. Анализ заканчивают, когда уровень этих отклонений стабилизируется.

Слайд 38

Как задать прайоры в Байесовом анализе?
Как выбрать модель эволюции в Байесовом

Как задать прайоры в Байесовом анализе? Как выбрать модель эволюции в Байесовом анализе? GTR+I+G
анализе?
GTR+I+G

Слайд 39

Пример Филогения бабочек рода Parnassius, основанная на анализе гена COI с использованием метода

Пример Филогения бабочек рода Parnassius, основанная на анализе гена COI с использованием метода Байеса
Байеса

Слайд 42

но

Основан на другой статистике, которая позволяет, получив вероятность дерева, пересчитать ее с

но Основан на другой статистике, которая позволяет, получив вероятность дерева, пересчитать ее
учетом той топологии, которая исходно была неизвестна
Дает множество деревьев, а не одно

Слайд 43

Получаемые в ходе Байесова анализа деревья образуют распределение, которое позволяет рассчитать так

Получаемые в ходе Байесова анализа деревья образуют распределение, которое позволяет рассчитать так
называемую постериорную вероятность отдельных деревьев и клад (posterior probability)

Слайд 44

Распределение этих деревьев позволяет рассчитать так называемую апостериорную вероятность (PB), которая является

Распределение этих деревьев позволяет рассчитать так называемую апостериорную вероятность (PB), которая является
прямой оценкой вероятности филогенетической реконструкции – поэтому не нужен бутстреп!

Слайд 45

Методы максимального правдоподобия и Байеса: сходство и различия, плюсы и минусы

ML говорит

Методы максимального правдоподобия и Байеса: сходство и различия, плюсы и минусы ML
лишь о степени соответствии данных и модели,
но не говорит о достоверности тестируемой гипотезы
(пример с гномами)

MB пытается заглянуть внутрь черного ящика.
Оценка вероятности самой гипотезы

Слайд 46

Методы максимального правдоподобия и Байеса применимы для анализа любых структур, закономерности эволюции

Методы максимального правдоподобия и Байеса применимы для анализа любых структур, закономерности эволюции
которых могут быть формализованы в виде параметрический моделей
Например, для филогенетического анализа хромосомных перестроек

Слайд 47

Не существует никакого теоретического запрета на использование морфологических признаков в рамках метода

Не существует никакого теоретического запрета на использование морфологических признаков в рамках метода
максимального правдоподобия и Байесова метода
Однако здесь возникает проблема отсутствия приемлемых моделей морфологической эволюции

Слайд 48

Пример Филогения бабочек рода Parnassius, основанная на анализе гена COI с использованием метода

Пример Филогения бабочек рода Parnassius, основанная на анализе гена COI с использованием метода Байеса
Байеса

Слайд 49

Методы реконструкции филогенезов , основанные на анализе генетических дистанций

ДНК:
1 5 10
tagcaaaatg

Методы реконструкции филогенезов , основанные на анализе генетических дистанций ДНК: 1 5 10 tagcaaaatg

Слайд 50

Суть метода
Откуда берутся генетические дистанции?
ДНК-ДНК гибридизация, иммунологические реакции, анализ анонимных маркеров –

Суть метода Откуда берутся генетические дистанции? ДНК-ДНК гибридизация, иммунологические реакции, анализ анонимных
все, что исходно дает информацию в виде % сходства
Превращение дискретных данных в генетические дистанции

Слайд 51

Превращение матрицы дискретных данных в матрицу дистанций

Превращение матрицы дискретных данных в матрицу

Превращение матрицы дискретных данных в матрицу дистанций Превращение матрицы дискретных данных в матрицу дистанций
дистанций

Слайд 52

Построение дерева на основании матрицы дискретных данных
и на основании в матрицы

Построение дерева на основании матрицы дискретных данных и на основании в матрицы дистанций
дистанций

Слайд 53

Чем генетические дистанции отличаются от фенетических?
Понятия сырой “p” дистанции и скорректированной дистанции
модели

Чем генетические дистанции отличаются от фенетических? Понятия сырой “p” дистанции и скорректированной дистанции модели эволюции
эволюции

Слайд 54

Методы коррекции генетических дистанций

Методы коррекции генетических дистанций

Слайд 55

Если вероятности нуклеотидных замен (p) и частоты нуклеотидов (f) константны во времени,

Если вероятности нуклеотидных замен (p) и частоты нуклеотидов (f) константны во времени,
то суммарная эволюционная дистанция ( доля измененных нуклеотидов) =

Где t это время, PAC –
PAC = PCA

Слайд 56

JC Вероятности всех замен одинаковы, частоты нуклеотидов равны

JC Вероятности всех замен одинаковы, частоты нуклеотидов равны

Слайд 57

K2P Вероятности транзиций и трансверсий разные, частоты нуклеотидов равны

α – транзиция
β - трансверсия

K2P Вероятности транзиций и трансверсий разные, частоты нуклеотидов равны α – транзиция β - трансверсия

Слайд 58

F81 Вероятности всех замен одинаковы, но частоты нуклеотидов разные

F81 Вероятности всех замен одинаковы, но частоты нуклеотидов разные

Слайд 59

K2P Вероятности транзиций и трансверсий разные, частоты нуклеотидов разные

K2P Вероятности транзиций и трансверсий разные, частоты нуклеотидов разные

Слайд 60

REV Вероятности ВСЕХ ЗАМЕН разные, частоты нуклеотидов разные

REV Вероятности ВСЕХ ЗАМЕН разные, частоты нуклеотидов разные

Слайд 62

Методы построения “дистантных” деревьев
Методы основанные на использовании критериев оптимальности
Методы, основанные на

Методы построения “дистантных” деревьев Методы основанные на использовании критериев оптимальности Методы, основанные на алгоритмах кластеризации
алгоритмах кластеризации

Слайд 63

Методы основанные на использовании критериев оптимальности
Метод наименьших квадратов
Оптимальным деревом признается то, при

Методы основанные на использовании критериев оптимальности Метод наименьших квадратов Оптимальным деревом признается
котором сумма квадратов генетических дистанций минимальна
Метод минимальной эволюции
Оптимальным деревом признается то, которое имеет наименьшую эволюционную длину (близко к идее максимальной парсимонии)

Слайд 65

Методы основанные на использовании критериев оптимальности
Метод наименьших квадратов
Оптимальным деревом признается то, при

Методы основанные на использовании критериев оптимальности Метод наименьших квадратов Оптимальным деревом признается
котором сумма квадратов генетических дистанций минимальна
Метод минимальной эволюции
Оптимальным деревом признается то, которое имеет наименьшую эволюционную длину (близко к идее максимальной парсимонии)

Слайд 66

Методы, основанные на алгоритмах кластеризации
Метод ближайшего соседа (Neighbour Joining)
Метод UPGMA (unweighted pair

Методы, основанные на алгоритмах кластеризации Метод ближайшего соседа (Neighbour Joining) Метод UPGMA
group method with arithmetic means)

Слайд 67

Построение дерева на основании матрицы дискретных данных
и на основании в матрицы

Построение дерева на основании матрицы дискретных данных и на основании в матрицы дистанций
дистанций

Слайд 68

Методы, основанные на алгоритмах кластеризации
Метод ближайшего соседа (Neighbour Joining)
Метод UPGMA (unweighted pair

Методы, основанные на алгоритмах кластеризации Метод ближайшего соседа (Neighbour Joining) Метод UPGMA
group method with arithmetic means)
Имя файла: Байесова-филогенетика-.pptx
Количество просмотров: 238
Количество скачиваний: 0