Содержание
- 2. Информатика и Биоинформатика Биологическая задача Формализация Формализация Формализация Алгоритм Алгоритм Алгоритм Алгоритм Алгоритм Тестирование Параметры Параметры
- 3. Пример: сравнение последовательностей Тестирование: алгоритм должен распознавать последовательности, для которых известно, что они биологически (структурно и/или
- 4. Сравнение последовательностей Формализация1: глобальное выравнивание Алгоритм1: Граф выравнивания, динамическое программирование Алгоритм1а: Граф выравнивания, динамическое программирование, линейная
- 5. Сравнение последовательностей Формализация2: локальное выравнивание Алгоритм2: Граф локального выравнивания, динамическое программирование Параметры: Матрица сходства, штраф за
- 6. Сравнение последовательностей Формализация3: локальное выравнивание с аффинными штрафами Алгоритм3: Расширенный граф локального выравнивания, динамическое программирование Параметры:
- 7. Сравнение последовательностей Алгоритм4: FASTA. формальная задача плохо определена Параметры: Размер якоря, матрица сходства, штраф за делецию
- 8. Сравнение последовательностей Алгоритм5: BLAST. формальная задача плохо определена Параметры: Размер якоря, матрица сходства, штраф за делецию
- 9. Выравнивания
- 10. Редакционное расстояние Элементарное преобразование последовательности: замена буквы или удаление буквы или вставка буквы. Редакционное расстояние: минимальное
- 11. Сколько существует выравниваний? Дано: две последовательности S1 и S2 длиной m и n. Сколько есть способов
- 12. Динамическое программирование для редакционного расстояния Граф редакционного расстояния для последователь-ностей S1,S2: вершина vi,j соответствует префиксам последовательностей
- 13. Подмена задачи и обобщение Заменим расстояния di,j на -di,j. Тогда операцию min надо заменить на max.
- 14. Граничные условия wi,j wi+1,j wi,j+1 wi+1,j+1 w1,1 начало w1,2 d2,1 wn,m-1 wn,m w2,1 wn-1,m конец При
- 15. Как не штрафовать за концевые делеции wi,j w1,1 начало w1,2 w2,1 wn,m-1 wn,m w3,1 wn-1,m конец
- 16. Оценка времени работы и необходимой памяти Алгоритм посматривает все вершины графа В каждой вершине делается 3
- 17. Где можно сэкономить? Во-первых не обязательно запоминать веса во всех вершинах. При просмотре матрицы выравнивания (графа
- 18. Линейный по памяти алгоритм Миллера-Маерса Разбиваем одну из последовательностей на две равные части Для каждой точки
- 19. Алгоритм Миллера-Маерса Найденная точка x разбивает матрицу выравнивания на четыре квадранта, два из которых заведомо не
- 20. Еще один способ сэкономить время и память Ясно, что выравнивания D1 и D2 не представляют интереса,
- 21. Локальное выравнивание Локальным оптимальным выравниванием называется такое оптимальное выравнивание фрагментов последовательностей, при котором любое удлинение или
- 22. Алгоритм Смита-Ватермана wi,j w1,1 начало w1,2 w2,1 wn,m-1 wn,m w3,1 wn-1,m конец wn,m-2 wn-2,m w1,3 0
- 23. Алгоритм Смита-Ватермана Пусть есть какой-то путь с неотрицательными весами Построим график веса вдоль пути Абсолютный максимум
- 24. Алгоритм Смита-Ватермана Точка конца пути (от нее начинаем обратный просмотр и восстановление пути) определяется так: (imax,
- 25. Более общая зависимость штрафа за делецию от величины делеции Простейшая модель делеции: элементарное событие – удаление
- 26. Более общая зависимость штрафа за делецию от величины делеции. Алгоритм. Теперь надо просматривать все возможные варианты
- 27. Аффинные штрафы за делецию Вместо логарифмической зависимости используют зависимость вида: Δ ( l ) = dopen+
- 28. Алгоритм для аффинных штрафов Веса на ребрах ei,j сопоставление dopen открытие делеции dext продолжение делеции ei,j
- 29. Рекурсия для аффинных штрафов w i, j = max ( w i-1, j-1+ei j , v
- 30. Матрицы замен
- 31. Откуда берутся параметры для выравнивания? Пусть у нас есть выравнивание. Если последовательности случайные и независимые (модель
- 32. Серия матриц BLOSUM База данных BLOCKS (Henikoff & Henikoff) – безделеционные фрагменты множественных выравниваний (выравнивания получены
- 33. Серия матриц PAM Point Accepted Mutation – эволюционное расстояние, при котором произошла одна замена на 100
- 34. Серия матриц PAM Находим выравнивания, отвечающие расстоянию PAM1 Находим частоты пар и вычисляем частоты пар: p(αβ)
- 35. Статистика выравниваний
- 36. Параметры выравнивания В простейшем случае есть три параметра: премия за совпадение (match) штраф за несовпадение (mism)
- 37. Статистика выравниваний Допустим мы выровняли две последовательности длиной 100 и получили вес 20. Что это значит?
- 38. Статистика выравниваний Базовая (вообще говоря неправильная) модель – Бернуллиевские последовательности (символы генерируются независимо друг от друга
- 39. Частные случаи локального выравнивания mism = 0, indel = 0 – максимальная общая подпоследовательность mism =
- 40. Наибольшая общая подпоследовательность Длина оптимальной подпоследовательности есть случайная величина r(n), зависящая от длины последовательностей. Пусть две
- 41. Наибольшее общее слово Наложим одну последовательность на другую. Будем идти вдоль пары последовательностей и, если буквы
- 42. Зависимость от параметров Показано, что зависимость ожидаемого веса выравнивания от длины последовательности может быть либо логарифмической
- 43. Распределение экстремальных значений Пусть вес выравнивания x (случайная величина) имеет распределение G(S) = P(x Тогда при
- 44. e-value & p-value Количество независимых локальных выравниваний с весом >S описывается распределением Пуассона (Karlin &Altschul) :
- 45. Поиск по банку
- 46. Поиск по банку. Хеширование. Подготовка банка – построение хэш-таблицы. Хэш-функция – номер слова заданного размера (l-tuple,
- 47. Поиск по банку. FASTA. Используется техника поиска якорей с помощью хэш-таблицы. Два якоря (i1,j1), (i2,j2) принадлежат
- 48. Поиск по банку. BLAST1. Ищем якоря с помощью хэш-таблицы Каждый якорь расширяем с тем, чтобы получить
- 49. Поиск по банку. BLAST2. T-соседней l-граммой LT для l-граммы L называется такая l-грамма, что вес ее
- 50. Быстрое выравнивание Ищем якоря с помощью хэш-таблицы Якорь (i1,j1) предшествует якорю (i2,j2), если i1 Получаем ориентированный
- 51. Введение в Байесову статистику
- 52. Введение в Байесову статистику Задача. Мы 3 раза бросили монету и 3 раза выпал орел. Какова
- 53. Введение в Байесову статистику P(3o | p) = p3; P(3o, p) = P(3o | p) Pa
- 54. Введение в Байесову статистику P(p | 3o)= p3 Pa(p) / ∫ p3 Pa(p) dp; В качестве
- 55. Введение в Байесову статистику ML Оценка: p ML= argmax (p3) = 1; (не зависит от распределения
- 56. Определения Пусть у нас есть несколько источников Y событий X (например, несколько монет). Тогда : P(X
- 57. Пример Пусть есть две кости – правильная и кривая (с вероятностью выпасть 6 – 0.5). И
- 58. Оценка параметров по результатам Пусть у нас есть наблюдение D и некоторый набор параметров распределения θ,
- 59. Распределение Дирихле Определение: D(θ|α)=Z-1∏ θi αi δ(∑ θi – 1); Z – нормировочный множитель αi –
- 60. prior = распределение Дирихле Часто в качестве prior используют распределение Дирихле. Параметры этого распределения αi называют
- 61. Скрытые Марковские модели (HMM)
- 62. Пример Пусть некто имеет две монеты – правильную и кривую. Он бросает монету и сообщает нам
- 63. Биологические примеры Дана аминокислотная последовательность трансмембранного белка. Известно, что частоты встречаемости аминокислот в трансмембранных и в
- 64. Описание HMM Пример с монетой можно представить в виде схемы конечного автомата: Прямоугольники означают состояния Кружки
- 65. Решение задачи о монете Пусть нам известна серия бросков: 10011010011100011101111101111110111101 Этой серии можно поставить в соответствие
- 66. Решение задачи о монете Для любого пути можно подсчитать вероятность того, что наблюденная серия соответствует этому
- 67. Viterbi рекурсия Обозначения vk(i) – наилучшая вероятность пути, проходящего через позицию i в состоянии k. πk(i)
- 68. Другая постановка задачи Для каждого наблюденного значения определить вероятность того, что в этот момент монета была
- 69. Оценка параметров HMM Есть две постановки задачи. Есть множество наблюдений с указанием, где происходит смена моделей
- 70. Оценка параметров HMM при наличии обучающей выборки Здесь используется техника оценки параметров методом наибольшего правдоподобия. Пусть
- 71. Оценка параметров HMM при наличии обучающей выборки Можно показать, что при большом количестве наблюдений справедливы оценки
- 72. Если нет обучающей выборки Итеративный алгоритм Баума-Велча. Выберем некоторые наборы параметров HMM (обычно они генерируются случайно).
- 73. Оценки параметров по Бауму-Велчу Имея заданные параметры модели можно определить вероятность перехода между состояниями: P(πi=k, πi+1=l
- 74. Предсказание кодирующих областей в прокариотах Реальная схема HMM для поиска кодирующих областей сложнее: Включает в себя
- 75. Оценка качества обучения Выборку разбивают на два подмножества – обучающую и тестирующую На первой выборке подбирают
- 76. Профили
- 77. Способы описания множественного выравнивания Дано: множественное выравнивание. Задача: определить принадлежит ли некая последовательность данному семейству. Простейший
- 78. Энтропия колонки Пусть колонка содержит nα букв типа α. Тогда вероятность появления такой колонки при случайных
- 79. HMM профиль Модель: каждая последовательность множественного выравнивания является серией скрытой Марковской модели. Профиль – описание Марковской
- 80. HMM с учетом возможности вставок Делеция в профиле и в последовательности могут идти подряд (в отличие
- 81. Определение параметров модели Для начала надо определиться с длиной модели. В случае, если обучающее множественное выравнивание
- 82. Для тонких выравниваний Простейшие варианты псевдоотсчетов: Правило Лапласа: к каждому счетчику прибавить 1: ek (a) =
- 83. Смеси Дирихле Представим себе, что на распределение вероятностей влияют несколько источников – частота встречаемости символа в
- 84. Использование матрицы замен Еще один способ введения псевдоотсчетов. У нас есть матрица замен аминокислотных остатков (например,
- 85. Использование предка Все последовательности xk в выравнивании произошли от общего предка y. P(yj=a | alignment)=qa∏kP(xkj|a)/∑a' qa∏kP(xkj|a)
- 86. А чему же равно A? Для компенсации малости выборок используют псевдоотсчеты. Разные подходы дают разные распределения
- 87. Это еще не все … При вычислении эмиссионных вероятностей используется предположение о независимости испытаний. Однако, в
- 88. Взвешивание последовательностей Способ учета неравномерной представленности последовательностей в выборке называется взвешиванием последовательностей. Каждой последовательности в выравнивании
- 89. Взвешивание последовательностей Метод Герштейна-Сонхаммера-Чотьи Пусть нам известно филогенетическое дерево с расстояниями на ветвях. На листьях –
- 90. Взвешивание последовательностей Многогранники Воронова Поместим объекты в некоторое метрическое пространство. Каждый объект хочет иметь "поместье" –
- 91. Вероятность модели при условии, что последовательность x принадлежит модели M: P( x | M) P(M) P(M
- 92. Взвешивание последовательностей Максимизация энтропии Пусть k(i,a) – количество остатков типа a в колонке i, mi –
- 93. Обобщенный подход: ∑i Hi(w) → max, ∑kwk=1; где Hi(w) = ∑a pia log pia; pia –
- 94. Множественное выравнивание
- 95. Множественное выравнивание Способ написать несколько последовательностей друг под другом (может быть с пропусками) так, чтобы в
- 96. Оценка качества множественного выравнивания Энтропийная оценка Обычно считают, что колонки в выравнивании независимы. Поэтому качество выравнивания
- 97. Оценка качества множественного выравнивания Сумма пар Другой традиционный способ оценки – сумма весов матрицы соответствия аминокислотных
- 98. Если есть функционал, то его надо оптимизировать Элементарные переходы: Сопоставление трех Сопоставление двух и одна делеция
- 99. Динамическое программирование для множественного выравнивания Количество вершин равно ∏посл. Li = O(LN) Количество ребер из каждой
- 100. Прогрессивное выравнивание Строится бинарное дерево (guide tree, путеводное дерево) – листья = последовательности Дерево обходится начиная
- 101. Выравнивание профилей Выравнивание одной стопки последовательности относительно другой – обычное динамическое программирование. Оптимизируется сумма парных весов:
- 102. ClustalW Строится матрица расстояний с использованием попарных выравниваний Строится NJ дерево (метод ближайшего соседа) Строится прогрессивное
- 103. Улучшение выравнивания Недостаток прогрессивных методов: если для некоторой группы последовательностей выравнивание построено, то оно уже не
- 104. Множественное выравнивание с помощью HMM Каждому множественное выравнивание соответствует скрытая Марковская модель. Можно применить алгоритм максимизации
- 105. Блочное выравнивание
- 106. Поиск сигналов
- 107. Постановка задачи Дано несколько (например,20) последовательностей. Длина каждой последовательности - 200 В каждой последовательности найти короткий
- 108. Графвая постановка задачи. Дан многодольный граф: Каждой доле соответствует последовательность Вершины – сайты Ребра проводятся между
- 109. HMM-постановка задачи Найти HMM, описывающую наилучший сайт. Для описания сайта используют следующую модель: Start Не сайт
- 110. Алгоритм максимизации ожидания Допустим нам приблизительно известна структура сайта. Применяем алгоритм Баума-Велча. Получаем структуру сайта. Алгоритм
- 111. Гиббс сэмплер Задача: найти набор позиций сайтов в последовательностях Инициация: В качестве решения выбираем произвольный набор
- 112. Вероятности для Гиббс сэмплера Вероятности для Гиббс сэмплера
- 113. Комбинаторные методы
- 114. RNA
- 115. Вторичная структура РНК Вторичной структурой называется совокупность спаренных оснований Биологическая роль вторичной структуры: Структурная РНК –
- 116. Элементы вторичной структуры Шпилька Спираль Внутренняя петля Множственная петля Выпячивание Псевдоузел 5' 3'
- 117. Способы представления вторичных структур Топологическая схема Круговая диаграмма Массив спаренных оснований Список спиралей
- 118. Задача Дана последовательность. Найти правильную вторичную структуру. Золотой стандарт: тРНК, рРНК. Количество возможных вторичных структур очень
- 119. Комбинаторный подход Построим граф: вершины – потенциальные нуклеотидные пары (или потенциальные спирали) Ребро проводится, если пары
- 120. Структуры без псевдоузлов Структура без псевдоузлов = правильное скобочное выражение Может быть представлено в виде дерева
- 121. Оптимизация количества спаренных оснований Обозначим |s| - мощность структуры (количество спаренных оснований) Пусть s1 и s2
- 122. Оптимизация количества спаренных оснований Пусть нам известны оптимальные структуры Srt для всех фрагментов i≤ r ≤
- 123. Динамическое программирование для количества спаренных оснований (Нуссинофф) Количество спаренных оснований в оптимальной структуре S*i,j+1 определяется как
- 124. Динамическое программирование для количества спаренных оснований При поиске оптимального количества спаренных оснований заполняется треугольная матрица весов
- 125. Восстановление структуры по матрице спаривания - - 17 - 2 2 16 - 3 15 -
- 126. Восстановление структуры по матрице спаривания SearchStruct (int i, int j) { int i0=i, j0=j; do{ if(i
- 127. Энергия вторичной структуры Энергия спиралей Энергия петель (энтропия) A – U C – G A –
- 128. Энергия петель Энергия свободной цепи ΔG = B + 3/2 kT ln L Для шпилек при
- 129. Минимизация энергии Обычное динамическое программирование не проходит – нет аддитивности. Определения нуклеотид h называется доступным для
- 130. Алгоритм Зукера Введем две переменные: W(i,j) – минимальная энергия для структуры на фрагменте последовательности [i, j];
- 131. Алгоритм Зукера Рекурсия для W требует времени T≈O(L3) Рекурсия для V требует гораздо большего времени T≈O(2L)
- 132. Проблемы минимизации энергии Только около 80% тРНК сворачиваются в правильную структуру Энергетические параметры определены не очень
- 133. Решение проблем Искать субоптимальные структуры Искать эволюционно консервативные структуры. структуры тРНК и рРНК определены именно так
- 134. Поиск субоптимальных структур и структурных элементов Статистическая сумма Z = ∑ exp(-ΔGi /kT) Если мы просуммируем
- 135. Консенсусные вторичные структуры РНК
- 136. Основные задачи Построение консенсуса Дано: набор последовательностей для которых известно, что они имеют общую вторичную структуру
- 137. Метод ковариаций Пусть дано множественное выравнивание последовательностей Взаимная информация двух колонок: I(A,B) = ∑ αβ fAB(αβ)
- 138. Грамматики Определения Терминальным символом называется символ, который может получаться в строке (обозначается малыми буквами) Нетерминальный символ
- 139. Стохастические контекстно-свободные грамматики Контекстно-свободные грамматики имеют правила вида W → β β – терминальные и/или нетерминальные
- 140. Задача выравнивания СКСГ с последовательностью СКСГ для описания вторичной структуры. Есть шесть типов преобразований:
- 141. Общая модель для выравнивания вторичной структуры с последовательностью
- 142. Общая идея алгоритма разбора последовательности Заполняется трехмерная матрица A(i,j,v): i,j – рассмотренный сегмент, v – тип
- 143. Поиск генов
- 145. Скачать презентацию














































































































































СредаПромышленной Разработки Программного Обеспечения
Презентация на тему Лилейные и злаковые растения
Общая характеристика отклоняющегося поведения несовершеннолетних
Игра по истории России XVIII века
Использование знаний о темпераменте в деятельности юриста
Залоговые и беззалоговые кредиты Банка ВТБ24 для предприятий малого и среднего бизнеса Банк ВТБ 24 для индивидуальных предприним
Расчетные положения системы внешнего армирования Sika®
Презентация на тему Ткани животных
Метод СПИН в продаже больших проектов в области аутсорсинга Дмитрий Кривонос
Презентация на тему "Инновационные технологии в учебной и внеклассной работе учителя биологии Пахомовой Т.Н. ГБОУ СОШ №2063" - с
Презентация по технологии Можно ли сгибать картон_ Как_ Наши проекты Африканская сав (1)
Состав Вооруженных Сил Российской Федерации
Бизнес-план кафе-кондитерская Сладости для радости
Механическое движение (1)
Рябчик русский
Урок-игра по ранним рассказам А.П.Чехова
Союз детских и молодёжных объединений «Ровесник»
Районное родительское собрание«Дополнительное образование детей в МОУ района»
Очистка воды в домашних условиях как жизненная необходимость
Презентация на тему Дух предпринимательства
Презентация на тему Рыцари
Теория продуктового портфеля
Гладь озерная на полотне
Brand Mapping. Магазин свечей ТЕПЛО
Реализация золошлаковых материалов. Сайт
Презентация на тему С огнем не играй - пожар не затевай!
Интегрированный урок математики и экономики по теме : «Экономический смысл производной»
Оружие массового паражения