паттерны, домены, семейства … или что, где и как искать?

Содержание

Слайд 2

Что будем искать ?

НАД-связывающий
сайт/центр

Сайты возможной
посттрансляционной
модификации (РТМ)

Домен 1

Домен 2
Гомологичное

Что будем искать ? НАД-связывающий сайт/центр Сайты возможной посттрансляционной модификации (РТМ) Домен
семейство:
особенности последовательностей,
характерный тип структуры,
функции, таксономия и т.п.

Семейство 1

Семейство 3

Семейство 2

«Похожие» семейства

Ортологи

Слайд 3

Паттерн (pattern) –
Позиционно специфическая матрица весов (PSSM) –
Профиль–PSSM –
Профиль–HМM -
Подпись (signature)

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM

«Oтпечатки пальцев» (fingerprints) –
Кластер -

Место, сайт(site) -
Мотив (motif) –
Домен (domain) –
Семейство –
Суперсемейство -

Основные понятия и термины

?

Слайд 4

Домен – единица
эволюции, структуры и функции белков.
Домен – компактная, относительно

Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно

независимо сворачивающаяся структура,
относительно консервативная в процессе
эволюции.
Белки могут состоять из одного или
многих доменов.
nitrogen fixation positive activator protein

Слайд 5

Мотив ?

Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции

Мотив ? Мотив в аминокислотной последовательности - набор консервативных остатков, важных для
белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности.
Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры (α-спираль, β-шпилька, β-поворот).
В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях.
Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены.
Не в любом выравнивании легко найти мотив.

Слайд 6

Интуитивно понятно:
Семейство - группа белков, имеющая общее происхождение,
их аминокислотные

Интуитивно понятно: Семейство - группа белков, имеющая общее происхождение, их аминокислотные последовательности
последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру.
Мнения расходятся, когда речь идет о критериях:
насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ??? должны белки одного семейства выполнять одну и ту же функцию??

Superfamily

Family

Subfamily

Слайд 7

No comments

No comments

Слайд 8

Паттерн (pattern) –
Позиционно специфическая матрица весов (PSSM) –
Профиль–PSSM –
Профиль–HМM -
Подпись (signature)

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM

«Oтпечатки пальцев» (fingerprints) -

Место, сайт(site) -
Мотив (motif) –
Домен (domain) –
Семейство –
Суперсемейство -

Основные понятия и термины

?

Слайд 10

Банки белковых семейств и доменов, производные от банков аминокислотных последовательностей
Коллекции

Банки белковых семейств и доменов, производные от банков аминокислотных последовательностей Коллекции мотивов
мотивов Коллекции доменов
PROSITE , 1989 Pfam
BLOCKS SMART
PRINTS ProDom, 1995
SUPERFAMILY
InterPro, 1999
(Integrated Resource of Protein Families)

Слайд 11

PROSITE - биологически значимые сайты, паттерны и профили

Выравнивание хорошо изучен-ного семейства

Функционально важные

PROSITE - биологически значимые сайты, паттерны и профили Выравнивание хорошо изучен-ного семейства
остатки

4-5
консервативных остатков

Паттерн

Если находим только«пра-вильные», то ОК

Если много лишнего, то увеличиваем паттерн

Поиск в SP

Паттерн – регулярное выражение UNIX’a:
[AC]-x-V-x(4)-{ED}
Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu или Asp)

http://www.expasy.ch/prosite/

Слайд 12

PROSITE - биологически значимые сайты, паттерны и профили

PROSITE - биологически значимые сайты, паттерны и профили

Слайд 13

PROSITE

Релиз 18.25,
14.04 2004
1257 документов,
1706 разных

PROSITE Релиз 18.25, 14.04 2004 1257 документов, 1706 разных паттернов, правил и

паттернов, правил и профилей.
Профиль или
весовая
матрица

F K L L S H C L L V
F K A F G Q T M F Q
Y P I V G Q E L L G
F P V V K E A I L K
F K V L A A V I A D
L E F I S E C I I Q
F K L L G N V L V C

A -18 -10 -1 -8 8 -3 3 -10 -2 -8
C -22 -33 -18 -18 -22 -26 22 -24 -19 -7
D -35 0 -32 -33 -7 6 -17 -34 -31 0
E -27 15 -25 -26 -9 23 -9 -24 -23 -1
F 60 -30 12 14 -26 -29 -15 4 12 -29
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5
H -13 -12 -25 -25 -16 14 -22 -22 -23 -10
I 3 -27 21 25 -29 -23 -8 33 19 -23
K -26 25 -25 -27 -6 4 -15 -27 -26 0
L 14 -28 19 27 -27 -20 -9 33 26 -21
M 3 -15 10 14 -17 -10 -9 25 12 -11
N -22 -6 -24 -27 1 8 -15 -24 -24 -4
P -30 24 -26 -28 -14 -10 -22 -24 -26 -18
Q -32 5 -25 -26 -9 24 -16 -17 -23 7
R -18 9 -22 -22 -10 0 -18 -23 -22 -4
S -22 -8 -16 -21 11 2 -1 -24 -19 -4
T -10 -10 -6 -7 -5 -8 2 -10 -7 -11
V 0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0 0 -18

Слайд 14

Pfam

http://www.sanger.ac.uk/Software/Pfam/index.shtml
Большая коллекция множественных выравниваний, доменов,
семейств и профилей-HMM для них.

Pfam http://www.sanger.ac.uk/Software/Pfam/index.shtml Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них.

Состоит из 2-х частей:
PfamA – курируемая часть, покрывает 73% SWISS-Prot+TrEMBL
PfamB – большое число маленьких семейств из автоматически
сгенерированной базы доменов ProDom, не вошедших в
PfamA.
Удобна для анализа доменной структуры белков.

Слайд 15

Pfam

Множественное выравнивание (ClustalX) некоторого семейства или кластера.
Экспертиза и корректировка выравнивания-затравки.
Построение профиля-НММ для

Pfam Множественное выравнивание (ClustalX) некоторого семейства или кластера. Экспертиза и корректировка выравнивания-затравки.
затравки.
Поиск в базе данных а.к.последовательностей
новых членов данной группы.

Слайд 16

ProDom

http://www.toulouse.inra.fr/prodom.html
Рассматриваются все последовательности в SWISS-Prot+TrEMBL.
Автоматическое выделение доменов (программа DOMAINER: сначала локальное

ProDom http://www.toulouse.inra.fr/prodom.html Рассматриваются все последовательности в SWISS-Prot+TrEMBL. Автоматическое выделение доменов (программа DOMAINER:
попарное выравнивание (blastp) всех против всех, затем кластеризация)
Коллекция доменов - >150 000 семейств.
Некоторые семейства выделены на основе выравниваний из PfamA.
Гомогенность семейства оценивается с помощью диаметра (max расстояния между 2 доменами в семействе) и радиуса (ср.кв. расстояние между доменами и консенсусом семейства). Оба параметра измеряются в РАМ

Слайд 17

Статистика ProDom

Всего – 157 167 семейств.
43 965 из них содержат

Статистика ProDom Всего – 157 167 семейств. 43 965 из них содержат
более 2 последовательностей.
Среднее число доменов в
последовательности – 2.8
Средняя длина – ~ 130
а.к. остатков

Слайд 18

Pfam
Prosite
Prints
Blocks
Smart
(ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown)

Example: ENTK_HUMAN (Enteropeptidase precursor)

Comparison

Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not
of protein family databases: an example

Слайд 19

Создание интегрированной базы данных InterPro

PROSITE

PFAM

PRINTS

InterPro
entries
IPR000001-
IPR011000

Интегрирование
родственных подписей «вручную»

ProDom

SMART

TIGRFAMs

PIRSF

SUPERFAMILY

InterPro- an integrated resource

Создание интегрированной базы данных InterPro PROSITE PFAM PRINTS InterPro entries IPR000001- IPR011000
of protein families, domains and functional sites.

Слайд 20

Entry types in InterPro

Family - group of evolutionarily related proteins, that share

Entry types in InterPro Family - group of evolutionarily related proteins, that
one or more domains/repeats in common.
Domain -independent structural unit which can be found alone or in conjunction with other domains or repeats.
Repeat -region occurring more than once that is not expected to fold into a globular domain on its own.
PTM (post-translational modification) -The sequence motif is defined by the molecular recognition of this region in a cell.
Active site -catalytic pockets of enzymes where the catalytic residues are known.
Binding site –binds compounds but is not necessarily involved in catalysis.

Слайд 21

Взаимосвязи подписей в InterPro

Parent/child уровень семейства
Contains/found in состав домена

Взаимосвязи подписей в InterPro Parent/child уровень семейства Contains/found in состав домена

Слайд 22

Parent/child- family level

Parent/child- family level

Слайд 23

Contains/found in

Contains/found in

Слайд 24

PROTOMAP

http://www.protomap.cs.huji.ac.il
Automatic classification of all SWISS-PROT proteins into groups of related proteins (also

PROTOMAP http://www.protomap.cs.huji.ac.il Automatic classification of all SWISS-PROT proteins into groups of related
including TrEMBL now)
Based on pairwise similarities
Has hierarchical organisation for sub- and super-family distinctions
13 354 clusters, 5869 ≥ 2 proteins, 1403 ≥ 10
Keeps SP annotation eg description, keywords
Can search with a sequence -classify it into existing clusters
Имя файла: паттерны,-домены,-семейства-…-или-что,-где-и-как-искать?.pptx
Количество просмотров: 123
Количество скачиваний: 0