Множественные выравнивания

Февраль 24, 2021

Главная
Информатика
Множественные выравнивания

Содержание

2. Что такое множественное выравнивание? Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом: Гомологичные остатки один
3. Какое выравнивание интереснее?
4. Какие бывают выравнивания? локальные глобальные локальные глобальные множественные парные Выравнивания
5. Зачем нужно множественное выравнивание? Перенос аннотации Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр
6. Как выбрать последовательности для множественного выравнивания? Выравнивайте белки, а не ДНК, если есть выбор Последовательностей лучше
7. Изучая новую последовательность Выборка на основе BLAST Подробно охарактеризованные последовательности - аннотация Совсем неохарактеризованные (hypothetical proteins)
8. Подготовка выборки BLAST => сохранить все последовательности разом в FASTA формате или сразу на выравнивание Имена
9. Как можно строить глобальное множественное выравнивание? Построение множественного выравнивания N последовательностей t =LN !!! Можно пытаться
10. Алгоритм ClustalW – пример эвристического прогрессивного алгоритма Руководящее дерево Очевидные недостатки: Результат зависит от порядка выравниваний;
11. Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS)
12. Использование ClustalW
13. Какие output-форматы бывают Post-script, pdf, html – только графика FASTA – последовательности отдельно, но с пробелами
14. Перевод форматов: READSEQ (http://www-bimas.cit.nih.gov/molbio/readseq/) Аналогично: SEQCHECK
15. ClustalW - output
16. JalView – редактирование выравниваний Другие программы для редактирования выравниваний (stand-alone): GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE
17. TCoffee Построение множественных выравниваний Оценка достоверности существующего выравнивания Использование 3-D структуры при построении выравнивания Сравнение и
18. TCoffee Выход – файлы clustalw_alnВыход – файлы clustalw_aln, fasta_alnВыход – файлы clustalw_aln, fasta_aln, phylipВыход – файлы
19. Как использовать TCoffee для других целей Множественное выравнивание на основе 3D-структуры (Expresso): надо заменить 1 или
20. Как “читать” множественное выравнивание? Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями ДНК – консервативные
21. Если консервативны только отдельные столбцы W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре.
22. Локальное множественное выравнивание – постановка задачи Ряд последовательностей, в каждой из которых есть интересное слово (либо
23. dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG
24. Gibbs sampler Let’s A be a signal (set of sites), and I(A) be its information content.
25. Соответствующие программы
26. Представление результатов таких программ – Logos Программы построения – http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html; http://www.cbs.dtu.dk/~gorodkin/appl/plogo.html
27. Greedy algorithms (MEME) Find a signal among all k-words (assuming that we know the length signal).
28. Greedy algorithms. Cont’d Select the k-word with maximal information content Problem. We considered only k-words from
29. Limitation of greedy algorithms Started from k-words in our sequences and increase the information content at
31. Скачать презентацию

Слайд 2

Что такое множественное выравнивание?
Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом:
Гомологичные

остатки один под другим
Остатки в одинаковом пространственном положении один под другим
Остатки, имеющие одинаковую функциональную нагрузку, один под другим
Одинаковые или похожие остатки один под другим

Слайд 3

Какое выравнивание интереснее?

Слайд 4

Какие бывают выравнивания?
локальные
глобальные
локальные
глобальные
множественные
парные
Выравнивания

Слайд 5

Зачем нужно множественное выравнивание?
Перенос аннотации
Предсказание функции каждого остатка (например, выявление остатков, составляющих

активный центр фермента)
Моделирование 3D – структуры
Реконструкция эволюционной истории последовательности (филогения)
Выявление паттерна функциональных семейств и сигналов в ДНК
Построение доменных профайлов
Аккуратный дизайн праймеров для PCR анализа

Слайд 6

Как выбрать последовательности для множественного выравнивания?
Выравнивайте белки, а не ДНК, если есть

выбор
Последовательностей лучше много, но не слишком (~ 10-15)
В выборке лучше избегать:
слишком похожих последовательностей (>90% id)
слишком разных последовательностей (<30% id c большинством)
неполных последовательностей (фрагментов)
тандемных повторов

Слайд 7

Изучая новую последовательность
Выборка на основе BLAST
Подробно охарактеризованные последовательности - аннотация
Совсем неохарактеризованные (hypothetical

proteins) – достаточный уровень разнообразия
Выравнивание по всей длине
e-value – 10 -40 – 10 -6
Избегать partial sequences

Слайд 8

Подготовка выборки
BLAST => сохранить все последовательности разом в FASTA формате или сразу

на выравнивание
Имена последовательностей:
не более 15 символов
без пробелов
как можно меньше служебных символов – можно “_”
нельзя использовать одинаковых имен!

Слайд 9

Как можно строить глобальное множественное выравнивание?
Построение множественного выравнивания N последовательностей
t =LN !!!
Можно

пытаться строить точно также, как и парное – слева направо, максимизируя вес выравнивания по столбцам (алгоритм Нидельмана –Вунша)

Слайд 10

Алгоритм ClustalW – пример эвристического прогрессивного алгоритма
Руководящее дерево
Очевидные недостатки:
Результат зависит от

порядка выравниваний;
«один раз гэп – всегда гэп»

Слайд 11

Современные методы построения множественного выравнивания (MSA, multiple sequence alignment):
Алгоритм ClustalW (реализации ClustalX,

emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html)
Muscle – быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py)
T-COFFEE – заметно точнее, но существенно медленнее
(http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)

Слайд 12

Использование ClustalW

Слайд 13

Какие output-форматы бывают
Post-script, pdf, html – только графика
FASTA – последовательности отдельно, но

с пробелами (PIR – аналогично)
MSF (ALN, Phylip, Selex …) – наглядно. Сверху – описание выборки: программа, название последовательностей, их длина, вес в выравнивании; потом само выравнивание блоками по 60 остатков

Слайд 14

Перевод форматов: READSEQ (http://www-bimas.cit.nih.gov/molbio/readseq/)
Аналогично: SEQCHECK

Слайд 15

ClustalW - output

Слайд 16

JalView – редактирование выравниваний
Другие программы для редактирования выравниваний (stand-alone):
GeneDoc; CINEMA; Seaview; Belvu;

Bioedit; DCSE
Список - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl

Слайд 17

TCoffee
Построение множественных выравниваний
Оценка достоверности существующего выравнивания
Использование 3-D структуры при построении выравнивания
Сравнение и

комбинирование выравниваний

Слайд 18

TCoffee
Выход – файлы clustalw_alnВыход – файлы clustalw_aln, fasta_alnВыход – файлы clustalw_aln, fasta_aln,

phylipВыход – файлы clustalw_aln, fasta_aln, phylip, score_htmlВыход – файлы clustalw_aln, fasta_aln, phylip, score_html, score_pdf, dnd file

Слайд 19

Как использовать TCoffee для других целей
Множественное выравнивание на основе 3D-структуры (Expresso): надо

заменить 1 или более имен в FASTA формате последовательностей на PDB-идентификатор соответствующей структуры. Тест – “Template file” (число структур). Если не в PDB – “Advanced”
Alignment evaluation – готовое выравнивание на вход. На выходе – раскрашенное выравнивание (score.html, score.pdf): каждый столбец покрашен в соответствии с качеством – красный/оранжевый/желтый - хорошо

Слайд 20

Как “читать” множественное выравнивание?
Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями
ДНК

– консервативные “островки”
Качество – score, локально важно
“consensus” – строка с символами “*”, “:”, “.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

Слайд 21

Если консервативны только отдельные столбцы
W, Y, F – консервативное гидрофобное ядро, стабилизирующая

роль в ядре. Если и мутируют, то между собой
G,P - фланкируют бета-стренды и альфа-спирали
С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между
H,S – каталитические центры протеаз
K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов
L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия

Слайд 22

Локальное множественное выравнивание – постановка задачи
Ряд последовательностей, в каждой из которых есть

интересное слово (либо точно, либо с небольшим количеством замен) известной длины
=> Найти и описать это слово
Идея. Будем искать перепредставленное слово. Стартуем со всех слов в выравнивании, ищем лучшее его представление в каждой из последовательностей и потом уточняем по полученному профайлу

Слайд 23

dnaN ACATTATCCGTTAGGAGGATAAAAATG
gyrA GTGATACTTCAGGGAGGTTTTTTAATG
serS TCAATAAAAAAAGGAGTGTTTCGCATG
bofA CAAGCGAAGGAGATGAGAAGATTCATG
csfB GCTAACTGTACGGAGGTGGAGAAGATG
xpaC ATAGACACAGGAGTCGATTATCTCATG
metS ACATTCTGATTAGGAGGTTTCAAGATG
gcaD AAAAGGGATATTGGAGGCCAATAAATG
spoVC TATGTGACTAAGGGAGGATTCGCCATG
ftsH GCTTACTGTGGGAGGAGGTAAGGAATG
pabB AAAGAAAATAGAGGAATGATACAAATG
rplJ

CAAGAATCTACAGGAGGTGTAACCATG
tufA AAAGCTCTTAAGGAGGATTTTAGAATG
rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG
rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG
rplM AGATCATTTAGGAGGGGAAATTCAATG
Cons tacataaaggaggtttaaaaat

Как это выглядит

Слайд 24

Gibbs sampler
Let’s A be a signal (set of sites), and I(A) be

its information content.
At each step a new site is selected in one sequence with probability
P ~ exp [(I(Anew)]
For each candidate site the total time of occupation is computed.
(Note that the signal changes all the time)

Слайд 25

Соответствующие программы

Слайд 26

Представление результатов таких программ – Logos
Программы построения –
http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html;
http://www.cbs.dtu.dk/~gorodkin/appl/plogo.html

Слайд 27

Greedy algorithms (MEME)
Find a signal among all k-words (assuming that we

know the length signal).
For all k-words it’s too time-consuming (k~16). So initially we consider only k-words that were present in the fragments.
For each k-word construct a matrix of “sites”: alignment of best “copies” of the k-word from every sequence fragment.
Select the best k-word. What is the measure for comparison of matrices? Information content!

Слайд 28

Greedy algorithms. Cont’d
Select the k-word with maximal information content
Problem. We considered

only k-words from our sequences => may select not the signal (the consensus word), but only its best representative in our sample
Solution. For each k-word from the sample construct PWM and reconstruct the frequency matrix based on it. Repeat until stabilization of the matrix. Use the consensus of this matrix.

Слайд 29

Limitation of greedy algorithms
Started from k-words in our sequences and increase

the information content at each step => find a local (not global) maximum of the functional.
We need an alternative algorithm that will not be “greedy”!

Множественные выравнивания

Содержание

Что такое множественное выравнивание?Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом:Гомологичные

Какое выравнивание интереснее?

Какие бывают выравнивания?локальные глобальныелокальныеглобальные множественныепарныеВыравнивания

Зачем нужно множественное выравнивание?Перенос аннотацииПредсказание функции каждого остатка (например, выявление остатков, составляющих

Как выбрать последовательности для множественного выравнивания?Выравнивайте белки, а не ДНК, если есть

Изучая новую последовательностьВыборка на основе BLASTПодробно охарактеризованные последовательности - аннотацияСовсем неохарактеризованные (hypothetical

Подготовка выборкиBLAST => сохранить все последовательности разом в FASTA формате или сразу

Как можно строить глобальное множественное выравнивание?Построение множественного выравнивания N последовательностейt =LN !!!Можно

Алгоритм ClustalW – пример эвристического прогрессивного алгоритмаРуководящее деревоОчевидные недостатки: Результат зависит от

Современные методы построения множественного выравнивания (MSA, multiple sequence alignment):Алгоритм ClustalW (реализации ClustalX,

Использование ClustalW

Какие output-форматы бываютPost-script, pdf, html – только графикаFASTA – последовательности отдельно, но

Перевод форматов: READSEQ (http://www-bimas.cit.nih.gov/molbio/readseq/)Аналогично: SEQCHECK

ClustalW - output

JalView – редактирование выравниванийДругие программы для редактирования выравниваний (stand-alone):GeneDoc; CINEMA; Seaview; Belvu;

TCoffeeПостроение множественных выравниванийОценка достоверности существующего выравниванияИспользование 3-D структуры при построении выравниванияСравнение и

TCoffeeВыход – файлы clustalw_alnВыход – файлы clustalw_aln, fasta_alnВыход – файлы clustalw_aln, fasta_aln,

Как использовать TCoffee для других целейМножественное выравнивание на основе 3D-структуры (Expresso): надо

Как “читать” множественное выравнивание?Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециямиДНК

Если консервативны только отдельные столбцыW, Y, F – консервативное гидрофобное ядро, стабилизирующая

Локальное множественное выравнивание – постановка задачиРяд последовательностей, в каждой из которых есть

Gibbs samplerLet’s A be a signal (set of sites), and I(A) be