Basic Local Alignment

Содержание

Слайд 2

BLAST – алгоритм для нахождения участков локального сходства между последовательностями.
Алгоритм сравнивает входную

BLAST – алгоритм для нахождения участков локального сходства между последовательностями. Алгоритм сравнивает
последовательность с последовательностями в базе данных, ищет сходные последовательности в базе данных и оценивает статистическую значимость находок.

Слайд 3

Почему локальное выравнивание?
Глобальное выравнивание следует применять только в случае заранее известной гомологии

Почему локальное выравнивание? Глобальное выравнивание следует применять только в случае заранее известной
последовательностей по всей длине.
Часто у последовательностей гомологичны только отдельные части (примеры: гомеобелки, полипротеины, …)
Если про белки заранее ничего не известно, то более информативным будет локальное выравнивание. Поэтому именно оно применяется при поиске в банках данных.

Слайд 4

Protein BLAST: поиск гомологов данного белка в банке аминокислотных последовательностей
Алгоритмы
blastp
psi-blast
phi-blast

Можно использовать:

Protein BLAST: поиск гомологов данного белка в банке аминокислотных последовательностей Алгоритмы blastp
из командной строки
– через веб-интерфейс

Слайд 5

Что подаётся на вход программе BLAST?

Последовательность запроса
Банк последовательностей
Параметры:
параметры выравнивания:

Что подаётся на вход программе BLAST? Последовательность запроса Банк последовательностей Параметры: параметры
матрица аминокислотных замен, штрафы за гэпы;
параметры поиска: длина слова и другие (см. далее);
параметры выдачи: максимальное число находок, пороги на качество выравнивания, форма выдачи (обычная, табличная, формат ASN, …)

Слайд 6

Что выдает BLAST?
Выдача самой программы состоит из четырёх частей:
– заголовок с

Что выдает BLAST? Выдача самой программы состоит из четырёх частей: – заголовок
описанием программы, банка, запроса (query);
– список находок;
– выравнивания запроса с находками;
– несколько строк со статистическими показателями.

Веб-интерфейсы тем или иным способом перерабатывают выдачу программы. Раздел со статистикой обычно не показывается. Часто вставляется графическое изображение находок.

Слайд 8

E-value – ожидаемое количество случайных находок с таким же и лучшим весом

E-value – ожидаемое количество случайных находок с таким же и лучшим весом
(в той же базе данных, с запросом той же длины и состава, с теми же параметрами на вычисление веса выравнивания).
В выдаче BLAST E-value называется “Expect”
Чем меньше E-value, тем выше значимость находки.

E-value зависит от:
– веса выравнивания (чем больше вес, тем меньше E-value)
– размера банка (чем больше банк, тем больше E-value)
– длины запроса (чем длиннее запрос, тем больше E-value)
– параметров, используемых для вычисления веса.

Слайд 9

Как посчитать E-value

Прямой способ — вычислительный эксперимент: перемешать банк (или запрос) очень

Как посчитать E-value Прямой способ — вычислительный эксперимент: перемешать банк (или запрос)
много раз, каждый раз запуская BLAST, и посмотреть, сколько в среднем найдётся находок с весом выше данного.
Такой способ, естественно, не применяется :)

Слайд 10

Как посчитать E-value

Имеется замечательная теорема (С.Карлина):
E-value=Kmn·e-λS
S – Score (вес) m – длина

Как посчитать E-value Имеется замечательная теорема (С.Карлина): E-value=Kmn·e-λS S – Score (вес)
исходной последовательности
n – размер базы данных (суммарная длина всех последовательностей)
K и λ – две константы

Коэффициенты K и λ зависят от параметров вычисления веса, то есть матрицы и штрафов за гэпы.
BLAST хранит значения K и λ для нескольких наборов параметров вычисления веса (их раз и навсегда нашли посредством вычислительного эксперимента).

Слайд 11

Вес в битах

Вес в битах B зависит от обычного веса S и

Вес в битах Вес в битах B зависит от обычного веса S
параметров вычисления веса. Эта зависимость подобрана так, чтобы
E-value=mn·2-B
m – длина исходной последовательности
n – размер базы данных
(констант K и λ теперь нет, они “загнаны внутрь B ”)

Нетрудно подсчитать, что B = (λS – lnK)/ln2

Слайд 12

Здесь описан интерфейс, установленный на «родине» BLAST: National Center for Biotechnology Information

Здесь описан интерфейс, установленный на «родине» BLAST: National Center for Biotechnology Information (NCBI) в США, http://blast.ncbi.nlm.nih.gov/
(NCBI) в США,
http://blast.ncbi.nlm.nih.gov/

Слайд 13

http://blast.ncbi.nlm.nih.gov/ → protein blast

http://blast.ncbi.nlm.nih.gov/ → protein blast

Слайд 15

Участок малой сложности

Ищем: белок P02929
если отключить “Compositional adjustment” и фильтр, то одной

Участок малой сложности Ищем: белок P02929 если отключить “Compositional adjustment” и фильтр,
из находок (18-ой от начала) будет следующее:

в исходном белке имеется участок, содержащий очень много пролина и глутаминовой кислоты

Данное выравнивание не свидетельствует о гомологии, несмотря на хорошее значение E-value (10-9)

Слайд 16

Определяется как участок с смещенным составом (biased composition)
• Гомополимерные участки
• Короткие повторы

Определяется как участок с смещенным составом (biased composition) • Гомополимерные участки •
Перепредставленность отдельных остатков

Участок малой сложности
Может мешать анализу последовательностей
Вычисление E-value (параметры K и λ) опирается на среднее по всем белкам распределение частот аминокислотных остатков
Обычно ведет к ложным предсказаниям гомологии (false positives)
Лучше использовать «Compositional adjustment» (по умолчанию включен)

Слайд 17

выбираем formatting options

подтверждаем выбор

Переход к текстовому виду

Чтобы увидеть выдачу самой программы

выбираем formatting options подтверждаем выбор Переход к текстовому виду Чтобы увидеть выдачу
(а не его обработку интерфейсом), можно поступить так:

Слайд 19

Как работает BLAST?

Поиск коротких сходных слов (якорей)

Якорь (в примере —длины 3)

Сходные слова
Порог

Как работает BLAST? Поиск коротких сходных слов (якорей) Якорь (в примере —длины
на score

=7+5+6

Расширение

Уменьшение за счёт:
Несовпадений
Штрафов за гэпы

Слайд 20

BLAST — эвристический алгоритм

Алгоритмы биоинформатики можно разделить на точные и эвристические.
Точные алгоритмы

BLAST — эвристический алгоритм Алгоритмы биоинформатики можно разделить на точные и эвристические.
решают какую-либо точно сформулированную формализованную задачу. Пример: алгоритм Нидельмана – Вунша, который для данных последовательностей находит выравнивание с максимальным весом.
Эвристические алгоритмы — те, для которых формальную задачу сформулировать нельзя.
BLAST не гарантирует нахождение оптимального локального выравнивания. За счёт этого достигается высокая скорость работы. Но теоретически возможно, что BLAST не найдёт в банке вполне достоверный (судя по выравниванию) гомолог.