Банки информации

Содержание

Слайд 2

Пример информации

последовательность ДНК

gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa
aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt
caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac
aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca
cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata
ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg
ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg
cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca
agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa
aatgtacaaagaactctaaaaaacttaacaataagaaaacaaacccaactaaaaactggg
ccaaagatcttaacagatatattaccaaagaagatacacagatggcaaataagcataaaa
agattaaccacatcatacgtcattaagaaattgcaaattaaaacaacaatgagacaccat
tatacacctagtagaatgacccaaatccagattactgacataatcaaatgctgacaagga
tgtggagaaacaggaactgccattcttgggttgtgggaatgccaaatggtatgcctgctt
tggaagacagcttggtggtttcttacaacactaagcatactcttaccaaaagatcgagca

Пример информации последовательность ДНК gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca

Слайд 3

Вообще-то ДНК — это молекула...

Примеры молекул:

Сульфат

Фенол

Фосфат тиамина (атомы водорода не показаны)

Вообще-то ДНК — это молекула... Примеры молекул: Сульфат Фенол Фосфат тиамина (атомы водорода не показаны)

Слайд 4

Молекула ДНК

A C G T

C N O P

Молекула ДНК A C G T C N O P

Слайд 5

Одну нить ДНК можно условно обозначить последовательностью букв

CGCCATAAATCAC

Одну нить ДНК можно условно обозначить последовательностью букв CGCCATAAATCAC

Слайд 6

Детали строения молекул в микроскоп не видны!

~ 0,00001 мм

Существуют сложные и

Детали строения молекул в микроскоп не видны! ~ 0,00001 мм Существуют сложные
дорогие методы
расшифровки структуры молекул

Слайд 7

В конце 1970-х годов был открыт относительно
быстрый и дешёвый метод расшифровки
последовательности

В конце 1970-х годов был открыт относительно быстрый и дешёвый метод расшифровки
оснований в ДНК

Организм

ДНК «в пробирке»

Последовательность

выделение

секвенирование

...CGCCATAAATCAC...

Слайд 8

Последовательность ДНК (пример)

gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa
aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt
caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac
aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca
cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata
ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg
ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg
cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca
agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa
aatgtacaaagaactctaaaaaacttaacaataagaaaacaaacccaactaaaaactggg
ccaaagatcttaacagatatattaccaaagaagatacacagatggcaaataagcataaaa
agattaaccacatcatacgtcattaagaaattgcaaattaaaacaacaatgagacaccat
tatacacctagtagaatgacccaaatccagattactgacataatcaaatgctgacaagga
tgtggagaaacaggaactgccattcttgggttgtgggaatgccaaatggtatgcctgctt
tggaagacagcttggtggtttcttacaacactaagcatactcttaccaaaagatcgagca

Последовательность ДНК (пример) gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa

Слайд 9

Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был

Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был
основан GenBank

GenBank — хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов
Объем GenBank’а:
1982: 680 338 букв в 606 последовательностях
1992: 101 008 486 букв в 78 608 последовательностях
2002: 28 507 990 166 букв в 22 318 883 последовательностях 2004: 44 575 745 176 букв в 40 604 319 последовательностях 2005: 56 037 734 462 букв в 52 016 762 последовательностях (из ~165 000 организмов)
Размер файлов — 196 Gb

Слайд 10

International Nucleotide Sequence Database Collaboration

GenBank (США)

EMBL (Европа)

DDBJ (Япония)

Ежедневный обмен данными

International Nucleotide Sequence Database Collaboration GenBank (США) EMBL (Европа) DDBJ (Япония) Ежедневный обмен данными

Слайд 11

Структура документа GenBank’а

Описание

Последовательность

Структура документа GenBank’а Описание Последовательность

Слайд 12

GenBank — архивная база данных

Один эксперимент — один документ

Зачем в документе

GenBank — архивная база данных Один эксперимент — один документ Зачем в
GenBank’а описательная часть?

Ответы: 1) чтобы пользователь банка мог найти интересующую его последовательность;
2) для хранения дополнительной информации
(откуда ДНК, кто проводил эксперимент по секвенированию,
биологическая роль данной последовательности и т.д.)

Слайд 13

Основная проблема больших банков данных — быстрый поиск нужной информации

Для удобства пользования

Основная проблема больших банков данных — быстрый поиск нужной информации Для удобства
описательная часть документа GenBank разбита на так называемые поля (“fields”)

Общий принцип: любая база данных состоит, с одной стороны, из записей (или «документов»), а с другой стороны, из полей. Каждая запись есть наполнение содержанием нескольких (или всех) полей.

Слайд 14

Основная проблема больших банков данных — быстрый поиск нужной информации

Как найти интересующую

Основная проблема больших банков данных — быстрый поиск нужной информации Как найти
нас последовательность в GenBank’е?

Существуют специальные компьютерные программы (например, SRS или Entrez), предназначенные для поиска по ключевым словам в банках последовательностей.

Пользователь указывает программе, по каким полям нужно искать и какое слово (или слова). Программа выдаёт список записей банка, в которых указанные слова встретились в указанных полях.

Слайд 15

Примеры задания на поиск

“gene” в поле DEFINITION
“yeast” в поле ORGANISM
“Ivanov” в поле

Примеры задания на поиск “gene” в поле DEFINITION “yeast” в поле ORGANISM
AUTHORS
“yeast” в поле ORGANISM И “tRNA” в поле DEFINITION
“mouse” ИЛИ “rat” в поле ORGANISM

Слайд 16

Как искать?

Перебрать все 52 млн. записей, и в каждой посмотреть, есть ли

Как искать? Перебрать все 52 млн. записей, и в каждой посмотреть, есть
в соответствующем поле заданное слово.

Заранее создать индексную таблицу каждого из полей и при каждом запросе обращаться к ней

Это долго даже современному компьютеру!

Слайд 17

Мораль: при создании программ для работы
с биологическими базами данных необходимо использовать достижения
теории алгоритмов

Мораль: при создании программ для работы с биологическими базами данных необходимо использовать достижения теории алгоритмов

Слайд 18

Что такое биоинформатика?

Исследование информационных процессов в биологических системах (клетках, органах, организме,

Что такое биоинформатика? Исследование информационных процессов в биологических системах (клетках, органах, организме,
популяции).
Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.).
Применение компьютерных методов для решения биологических задач.
Телепатия, парапсихология, информационные поля и т.п.

?

Слайд 19

Что такое биоинформатика?

Исследование информационных процессов в биологических системах (клетках, органах, организме,

Что такое биоинформатика? Исследование информационных процессов в биологических системах (клетках, органах, организме,
популяции).
Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.).
Применение компьютерных методов для решения биологических задач.
Телепатия, парапсихология, информационные поля и т.п.

Слайд 20

Биоинформатика и её связи с другими дисциплинами

Биоинформатика (компьютерная молекулярная биология)

Молекулярная биология

Информатика (в том числе теория

Биоинформатика и её связи с другими дисциплинами Биоинформатика (компьютерная молекулярная биология) Молекулярная
алгоритмов)

Теория вероятностей и математическая статистика

Слайд 21

Основные объекты современной биоинформатики

Последовательности нуклеиновых кислот
Последовательности белков
Пространственные структуры макромолекул (белков, ДНК и

Основные объекты современной биоинформатики Последовательности нуклеиновых кислот Последовательности белков Пространственные структуры макромолекул
РНК) и их комплексов (друг с другом и с малыми молекулами)

Слайд 22

Что такое белок

Пространственная структура

RRNFSKQASE ILNEYFYSHL
SNPYPSEEAK EELARKCGIT
VSQVSNWFGN KRIRYKKNI

Последовательность

Что такое белок Пространственная структура RRNFSKQASE ILNEYFYSHL SNPYPSEEAK EELARKCGIT VSQVSNWFGN KRIRYKKNI Последовательность
Имя файла: Банки-информации.pptx
Количество просмотров: 155
Количество скачиваний: 0