Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL

Содержание

Слайд 2

Первый “банк данных”

Атлас белковых последовательностей и их структур

1965 -1978

Первая версия атласа содержала

Первый “банк данных” Атлас белковых последовательностей и их структур 1965 -1978 Первая
описание 65 (!) последовательностей белков

Слайд 3

В конце 1970-х годов был изобретён относительно
быстрый и дешёвый метод экспериментального определения

В конце 1970-х годов был изобретён относительно быстрый и дешёвый метод экспериментального

последовательности оснований в ДНК

Организм

ДНК «в пробирке»

Последовательность

выделение

секвенирование

...TGCCACAAATCAC...

Молекулярная биология

Слайд 4

gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa

gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa

gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa

Молекулярная биология

gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag

Слайд 5

Молекулярная биология
Molecular biology

Компьютер
Computer

Биоинформатика
Computational Molecular biology

Молекулярная биология Molecular biology Компьютер Computer Биоинформатика Computational Molecular biology

Слайд 6

Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был

Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был
основан GenBank

— хранилище последовательностей нуклеиновых кислот
в виде компьютерных файлов

Слайд 7

Банки данных

Архивные (примеры: , ) за содержание каждой записи отвечает её автор-экспериментатор

Банки данных Архивные (примеры: , ) за содержание каждой записи отвечает её
Курируемые за содержание записей отвечают специальные люди — кураторы
Автоматические записи генерируются компьютерными программами

Слайд 8

InterPro, ...

Банки структурной биологической информации

Архивные базы последовательностей НК

Автоматическая база различных последовательностей НК

Курируемая база последовательностей

InterPro, ... Банки структурной биологической информации Архивные базы последовательностей НК Автоматическая база
белков

Автоматическая база предсказаний последовательностей белков

Архивная база пространственных
структур макромолекул

И многие другие...

Банки семейств белков

Слайд 9

Банк данных

Universal Protein Resource


UniProt Archive – UniParc
Все доступные белковые последовательности

Банк данных Universal Protein Resource UniProt Archive – UniParc Все доступные белковые
из разных БД
Свой неизменный ID
История записей про каждую последовательность
UniProt Reference – UniRef
Избавление от избыточности

UniProt Knowlegebase

Слайд 10

~7 000 000
последовательностей

компьютерный поиск гена, трансляция и компьютерная аннотация

UniRef
(UniProt
non-redundant

~7 000 000 последовательностей компьютерный поиск гена, трансляция и компьютерная аннотация UniRef

Reference
databases)

UniParc (UniProt Archive)

408 099 последовательностей

Экспертиза

Базы данных
научной литературы

Слайд 11

Соотношение числа белков, представленных в разных банках

Последовательностей во много раз больше, чем структур!
Большинство

Соотношение числа белков, представленных в разных банках Последовательностей во много раз больше,
последовательностей не аннотированы!

Слайд 12

Документ банка данных Swiss-Prot

Описание документа: идентификатор,
имя, дата создания и модификации

Аннотация

Документ банка данных Swiss-Prot Описание документа: идентификатор, имя, дата создания и модификации Аннотация последовательности Последовательность
последовательности

Последовательность

Имя файла: Профессиональные-банки-последовательностей-–-UniProt,-SwissProt,-TrEMBL.pptx
Количество просмотров: 122
Количество скачиваний: 0