Біоінформатика. Бази даних. Модель NCBI. Lab.1

Содержание

Слайд 2

Центральні питання

Де знайти літературу про ген/білок, що цікавить
Де можна знайти послідовність гена/генома,

Центральні питання Де знайти літературу про ген/білок, що цікавить Де можна знайти
що цікавить?
Що таке депонування НАП?

Слайд 3

National Center for Biotechnology Information

www.ncbi.nlm.nih.gov

National Center for Biotechnology Information www.ncbi.nlm.nih.gov

Слайд 4

NCBI

Фізична локація – м. Бетезда, штат Меріленд (США)
Подвійна функція – сховище даних

NCBI Фізична локація – м. Бетезда, штат Меріленд (США) Подвійна функція –
і сервер для аналізу

Типи даних

Біомедичні дані
PubMed
PubChem
Taxonomy
Chemicals and assays
Proteins
…..

Геномні дані
Genome
Variations
SNP
OMIM
Genes and expression
…..

Слайд 5

PubMed

www.ncbi.nlm.nih.gov/pubmed

PubMed www.ncbi.nlm.nih.gov/pubmed

Слайд 6

PubMed

Можна звузити коло пошуку до статей, що відповідають певним вимогам (напр., шукати

PubMed Можна звузити коло пошуку до статей, що відповідають певним вимогам (напр.,
тільки огляди - review)

Слайд 7

PubMed

Логічні оператори: AND, OR, *.
Streptomyces; strepto*. * = будь-що

PubMed Логічні оператори: AND, OR, *. Streptomyces; strepto*. * = будь-що

Слайд 9

PubMed

Скориставшись лінками, що підкреслено на попередньому слайді, можна отримати бібліографічний опис статті:
1:

PubMed Скориставшись лінками, що підкреслено на попередньому слайді, можна отримати бібліографічний опис
Kalan L, Perry J, Koteva K, Thaker M, Wright G. Glycopeptide sulfation evades resistance. J Bacteriol. 2013 Jan;195(1):167-71. doi: 10.1128/JB.01617-12. Epub 2012 Oct 26. PubMed PMID: 23104813; PubMed Central PMCID: PMC3536170.

Ідентифікатори статті як цифрового об’єкта (ЦО):
DOI (Digital Object Identification) – унікальна комбінація арабських цифр і латинських літер – жоден інший ЦО такої не має. Видавець звертається до www.doi.org, що видає первинний номер (10.1128/JB), який далі продовжується у міру появи нових ЦО. DOI можна присвоїти частинам статті (рисункам)
PMID – присвоюється автоматично кожному посиланню, що потрапляє у базу PubMed
PMCID – номери доступу до повних текстів статей, зібраних із доступних джерел фахівцями NCBI, і поміщених в PubMed Central

Слайд 10

PubMed

Доступ до повних текстів статей

Сайт видавця

PubMed Доступ до повних текстів статей Сайт видавця

Слайд 11

PubMed

Деякі видання у галузі хімії не реферуються в PubMed
Видавничий дім Elsevier
Журнали

PubMed Деякі видання у галузі хімії не реферуються в PubMed Видавничий дім
Open Access
NIH вимагає відкривати зміст усіх статей, де описано досліди, що ними фінансувались – через певний період часу (зразу, півроку, рік)
Запит до автора статті (може переслати персональну копію для особистого вжитку)
Пошук через Google
Запит через наукові соцмережі (LinkedIn, ResearchGate)

Слайд 12

GenBank

Ця база є частиною міжнародного консорціуму INSDC (International Nucleotide Sequence Databases Collaboration;

GenBank Ця база є частиною міжнародного консорціуму INSDC (International Nucleotide Sequence Databases
http://www.insdc.org/ ), куди входять European Nucleotide Archive (ENA) і DNA Data Base of Japan (DDBJ).
GenBank – підрозділ NCBI. www.ncbi.nlm.nih.gov/genbank
Т.зв. первинна, або архівна, база даних – метою є збереження нуклеотидних послідовностей (і продуктів їхньої концептуальної трансляції), що подаються (депонуються) дослідниками з усього світу. Зміст поданої інформації загалом не перевіряється – це відповідальність авторів депонування
GenBank, ENA і DDBJ щоденно обмінюються інформацією, і зміст їхніх баз ідентичний

Слайд 13

GenBank

Анотовані фрагменти геномів; анотовані геноми; неанотовані фрагменти і геноми; чернетки (драфти геномів),

GenBank Анотовані фрагменти геномів; анотовані геноми; неанотовані фрагменти і геноми; чернетки (драфти геномів), метагеномні дані….
метагеномні дані….

Слайд 14

GenBank

Формат FASTA

>PMI3114
TTAAGAAGCAATAGGTGTCCATAGTTCACCTAATTTATAGTCCCACTCTTTTGGTTTAATGGGAATGCGCCCCGCATTGGGGGTAAAGGTCATTTCACTAAACAGTAGTGTGGTTTCTGACATTAAAAAATCGACCCGACAATAGGCAAAACCGTTAGCTAATTTGTTGGCTAATGTGAGCATATTGTCAAATTGTAGCGGTTTTTCAATATATTCTGGGGTATTGGGATCTTCTAAAGTAAAAGGCTGTAATTGCCATTGTGTATCATAAACATTGATA
>WemR
MKKLKKYLTRKKKENYIIFSIYYFIKVTSSIFISDSLYRKYIFKRKYKLNLKKPTSFNEKIHYRILNDHNPIYTKLADKLLVRDYVREKIGEKYLIKLINHYNTPSEINFNTLPKSFVLKCNHDVGSVMIINDKSKINEKAIKKKLKIALKNNIYYQNREWHYKNIKPKIICEELINIFPHNKKNYPEDYKIHCFNGIPRYIELQFSRFSHDRRINIYDFNWNLQPFLMGYKNTNESIEKPKKLQEIYNISKTLSADFDYCRVDFYITP

Шрифт Courier New

Рядок анотації може займати кілька рядків, містити

GenBank Формат FASTA >PMI3114 TTAAGAAGCAATAGGTGTCCATAGTTCACCTAATTTATAGTCCCACTCTTTTGGTTTAATGGGAATGCGCCCCGCATTGGGGGTAAAGGTCATTTCACTAAACAGTAGTGTGGTTTCTGACATTAAAAAATCGACCCGACAATAGGCAAAACCGTTAGCTAATTTGTTGGCTAATGTGAGCATATTGTCAAATTGTAGCGGTTTTTCAATATATTCTGGGGTATTGGGATCTTCTAAAGTAAAAGGCTGTAATTGCCATTGTGTATCATAAACATTGATA >WemR MKKLKKYLTRKKKENYIIFSIYYFIKVTSSIFISDSLYRKYIFKRKYKLNLKKPTSFNEKIHYRILNDHNPIYTKLADKLLVRDYVREKIGEKYLIKLINHYNTPSEINFNTLPKSFVLKCNHDVGSVMIINDKSKINEKAIKKKLKIALKNNIYYQNREWHYKNIKPKIICEELINIFPHNKKNYPEDYKIHCFNGIPRYIELQFSRFSHDRRINIYDFNWNLQPFLMGYKNTNESIEKPKKLQEIYNISKTLSADFDYCRVDFYITP Шрифт Courier New Рядок анотації
пробіли

Слайд 15

GenBank

>gi|197283915:3424858-3425733|PMI3114| Proteus mirabilis HI4320 chromosome, complete genome TTAAGAAGCAATAGGTGTCCATAGTTCACCTAATTTATAGTCCCACTCTTTTGGTTTAATGGGAATGCGCCCCGCATTGGGGGTAAAGGTCATTTCACTAAACAGTAGTGTGGTTTCTGACATTAAAAAATCGACCCGACAATAGGCAAAACCGTTAGCTAATTTGTTGGCTAATGTGAGCATATTGTCAAATTGTAGCGGTTTTTCAATATATTCTGGGGTATTGGGATCTTCTAAAGTAAAAGGCTGTAATTGCCATTGTGTATCATAAACATTGATA

Gene identification (gi) – унікальний

GenBank >gi|197283915:3424858-3425733|PMI3114| Proteus mirabilis HI4320 chromosome, complete genome TTAAGAAGCAATAGGTGTCCATAGTTCACCTAATTTATAGTCCCACTCTTTTGGTTTAATGGGAATGCGCCCCGCATTGGGGGTAAAGGTCATTTCACTAAACAGTAGTGTGGTTTCTGACATTAAAAAATCGACCCGACAATAGGCAAAACCGTTAGCTAATTTGTTGGCTAATGTGAGCATATTGTCAAATTGTAGCGGTTTTTCAATATATTCTGGGGTATTGGGATCTTCTAAAGTAAAAGGCTGTAATTGCCATTGTGTATCATAAACATTGATA Gene identification (gi)
номер, що присвоюється кожній послідовності при поданні у GenBank. Після двокрапки – координати у геномі (у п.н.)

Locus name

Анотація

Слайд 17

GenBank

HEADER

FEATURES

SEQUENCE

Структура
GenBank FlatFile (GBFF) - флетфайл

GenBank HEADER FEATURES SEQUENCE Структура GenBank FlatFile (GBFF) - флетфайл

Слайд 18

GenBank

HEADER

GenBank HEADER

Слайд 19

GenBank

FEATURES

GenBank FEATURES

Слайд 20

GenBank

Комплементарна нитка

GenBank Комплементарна нитка

Слайд 21

GenBank

FEATURES

GenBank FEATURES

Слайд 22

GenBank

ORIGIN

……………..

GenBank ORIGIN ……………..

Слайд 23

GenBank

FEATURES

GenBank FEATURES

Слайд 24

GenBank

moeH5

GenBank moeH5

Слайд 25

GenBank

GBFF для moeH5 - гена

GenBank GBFF для moeH5 - гена

Слайд 26

GenBank

FASTA-файл для moeH5 - гена

GenBank FASTA-файл для moeH5 - гена

Слайд 27

GenBank

FASTA-файл для moeH5 - гена

GenBank FASTA-файл для moeH5 - гена

Слайд 28

Прямий шлях до МоеН5

Стартова сторінка NCBI

Вибрати Protein

Задати назву білка (МоеН5)

Прямий шлях до МоеН5 Стартова сторінка NCBI Вибрати Protein Задати назву білка (МоеН5)

Слайд 29

Депонування НАП

Депонування НАП

Слайд 30

Депонування НАП

Нуклеотидні послідовності – у базу, що входить INSDC - GenBank, ENA,

Депонування НАП Нуклеотидні послідовності – у базу, що входить INSDC - GenBank,
DDBJ
Білкові – SWISSPROT
GenBank має різні знаряддя для депонування:
BankIt – для подання відносно коротких і простих (безінтронних) послідовностей
SequIn – подання складних послідовностей
Та інші (тут не розглядаються)
Подання геномів – окрема історія (див. далі)
При поданні нуклеотидних послідовностей потрібно знати мінімум інформації про неї, зокрема локалізацію в ній (координати) orf
У результаті подання послідовності присвоюється номер доступу в GenBank

Слайд 31

Депонування НАП

CTAAAGGGAACAAAAGCTGGAGCTCCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCGCAGGAAGCGAGAGCCCCCGGGCCTCCTATCCTGGGCGGGCGCGAACGGCTTCGGCCCGACGCGAACGACCGTAGGGGCAAAGGCCATCGGGGGATCGGTTCAGCATGGGCAAGGGCAAGGACAGCCAGGGGTACCCGGCGATGGAGGGCATACGGCCGCTCGTGACCGGTGACCCGGCGCGGATCGGGCCCTATCGGCTACTGGGACGGCTCGGTGCGGGCGGGATGGGCCGGGTGTACCTGGCCCGTTCGGCGGGCGGGCGCACCGTCGCCGTGAAGGTGGTGCACGAGGAGCACATCGCGAACGGGGAGTTCCGGGCCCGCTTCCGTCGGGAGATCGAGGCCGCCCGCCGCGTCGGCGGGCGGTACACCGCTCCCGTGCTCGACGCCGACGCCGACGCCGAACGGCCCTGGGTGGCCACCGGCTACGTCCCCGGCCCCTCCCTCGAACAGGCCGTACGGGAGCACGGGCCGCTGCCCGCCGCCTCGGTCAACGCCCTGGCCGAGGGGCTGTTGAGGGCCCTGCGCGGCATTCACGCCGCCGGGATCGTCCACCGGGACCTCAAGCCGTCCAACGTCCTGCTCACCGTCGACGGCCCCCGCGTCATCGACTTCGGCATCGCCCGCGCGCTCCAGGTCTCCGTGGAGTCCCTGCTGACCAGTACGGGCATGGTCATCGGCTCTCCCGGGTTCATGGCGCCCGAGCAGATCCTCGGCGAGGAGACCGGAGCGGGGGCGGACGTCTTCTCCCTCGGCTGTGTCCTGATGTACGCGGCCACGGGGCGGCTGCCGTTCGGCGCCGGTGCGAGCAACCAGCACGCGGTGATGTTCCGGATCGTCCAGTCCCCGCCGGACCTCGACGCGGTGGAGGACGCCTCCCTGCGCGAGCTGATCGAACGCTGCCTGACCAAAGCCGCCGCCGAACGCCCGGGAGTGGACGAGCTGGTGGGGTGCCTGGCGCCTGACCGGTCCTCGGACGCCTTGCGTGGTGCCTGGCTGCCGCCGGTGCTCCTGGCCCGGCTGGCGCAGCAGTCGGCGCTGCTGCTCGACGCGGATGTTCCGGAGACCTCGGACGTACCGGCGCCTGTGCGGGCGGGGGGCGCCGAGGAGCCTGCTTCTTCGGTTGTTCCTGAGGCTCCCGTTGTTCCTGAGGCTCCCGTGCCCGAGCCGCGTGACCTCGGTACGGTCGATCTGAGGCCGGCACCGGCGAAGGACGACGAGGCGGGCAGCCTGTCACCGGACCCGGCCCCGGACCCGGACCCGGACTCTTCCCCGGCATCGGCATCGGCATCGGGCCCGGCCCCGGCCTTGTCCCCTGGTCCCGGAGGGGGCTGGTGCCCGCCGGTGGCGGGCGGACCGGCCAGGGAAGTGGGCGTAGGCGCTCGTGCGTGGGTCGTCGCGGCAGTCGTCGTCGCCGTGCTGGCTGCCGGGGGCACCACCGCCTTCCTCAACCGCGGCCCGGGTGGCGCCGACCCCGGGGGCGGAGAGGCTGCCGCGCCGCCCGCCGCCAGTGACGGACCGTCCGGCGCCCCGTCCTCCCCGGCCGGGGAGGACGACTCCAAGGGCAGCGAGAAGGACAAGGGCAAGGACAAGGACAACGGCAAGGAAGACGGGAAGGACAAGGAAGGTACAGAAGAGGAGCAGGGCGGAGAGGACGGCGGCGACTCCGGCGGCGGGCAGAGCGACGGGGCCGGTTCCGGCGAGGGCGCGTCCTCGGGCGGAGGCGAGGGGGCCGGAGCTTCCGGCGGAGGCGGCACACAGGACGGGTCCGGCTCGTCCGGTTCGGGGGGCTCCGGCGGTGCCGCGAAGCCGCCCGCCCAGGACCCCGCCCCGGACGGCCGGGTGCCGCAGCAGTTCGTCGGGACCTGGTCCATCGCGTCCCAGTACGACGCCCTCCAGCCGCACACCGTGGTCATCCGGCGGGTGTCGCCCGGGCAGTCGGCGGTGACCCTCATCGCCGACGTCCAGGGGTCGGGGCACTGCGAGTACACGGCGAAGCTCAGCTCCGTGGCGGACGGCGGGAACCGGATCAACGTCGGTACCGCCGTGGTGGACAAGGCCCGTTCCGGCGGGGTGTGCCGCGACACCGACCCCTCGTTCTTCACCGTCGCCGGCTCCGGCATCCTGCACGACGTCGGGCCCGCCCACGGCAGCGGCTATCGCTACAACCGCGCCTGAGCGGGCCCGTCACTCCGGAATCGACGGTCCGGAACCGGCCGACGTCCGACGCCCG

Мінімум інформації про послідовність
Розмір (у п.н.)
Локалізація orf (якщо є)
Походження послідовності

Депонування НАП CTAAAGGGAACAAAAGCTGGAGCTCCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCGCAGGAAGCGAGAGCCCCCGGGCCTCCTATCCTGGGCGGGCGCGAACGGCTTCGGCCCGACGCGAACGACCGTAGGGGCAAAGGCCATCGGGGGATCGGTTCAGCATGGGCAAGGGCAAGGACAGCCAGGGGTACCCGGCGATGGAGGGCATACGGCCGCTCGTGACCGGTGACCCGGCGCGGATCGGGCCCTATCGGCTACTGGGACGGCTCGGTGCGGGCGGGATGGGCCGGGTGTACCTGGCCCGTTCGGCGGGCGGGCGCACCGTCGCCGTGAAGGTGGTGCACGAGGAGCACATCGCGAACGGGGAGTTCCGGGCCCGCTTCCGTCGGGAGATCGAGGCCGCCCGCCGCGTCGGCGGGCGGTACACCGCTCCCGTGCTCGACGCCGACGCCGACGCCGAACGGCCCTGGGTGGCCACCGGCTACGTCCCCGGCCCCTCCCTCGAACAGGCCGTACGGGAGCACGGGCCGCTGCCCGCCGCCTCGGTCAACGCCCTGGCCGAGGGGCTGTTGAGGGCCCTGCGCGGCATTCACGCCGCCGGGATCGTCCACCGGGACCTCAAGCCGTCCAACGTCCTGCTCACCGTCGACGGCCCCCGCGTCATCGACTTCGGCATCGCCCGCGCGCTCCAGGTCTCCGTGGAGTCCCTGCTGACCAGTACGGGCATGGTCATCGGCTCTCCCGGGTTCATGGCGCCCGAGCAGATCCTCGGCGAGGAGACCGGAGCGGGGGCGGACGTCTTCTCCCTCGGCTGTGTCCTGATGTACGCGGCCACGGGGCGGCTGCCGTTCGGCGCCGGTGCGAGCAACCAGCACGCGGTGATGTTCCGGATCGTCCAGTCCCCGCCGGACCTCGACGCGGTGGAGGACGCCTCCCTGCGCGAGCTGATCGAACGCTGCCTGACCAAAGCCGCCGCCGAACGCCCGGGAGTGGACGAGCTGGTGGGGTGCCTGGCGCCTGACCGGTCCTCGGACGCCTTGCGTGGTGCCTGGCTGCCGCCGGTGCTCCTGGCCCGGCTGGCGCAGCAGTCGGCGCTGCTGCTCGACGCGGATGTTCCGGAGACCTCGGACGTACCGGCGCCTGTGCGGGCGGGGGGCGCCGAGGAGCCTGCTTCTTCGGTTGTTCCTGAGGCTCCCGTTGTTCCTGAGGCTCCCGTGCCCGAGCCGCGTGACCTCGGTACGGTCGATCTGAGGCCGGCACCGGCGAAGGACGACGAGGCGGGCAGCCTGTCACCGGACCCGGCCCCGGACCCGGACCCGGACTCTTCCCCGGCATCGGCATCGGCATCGGGCCCGGCCCCGGCCTTGTCCCCTGGTCCCGGAGGGGGCTGGTGCCCGCCGGTGGCGGGCGGACCGGCCAGGGAAGTGGGCGTAGGCGCTCGTGCGTGGGTCGTCGCGGCAGTCGTCGTCGCCGTGCTGGCTGCCGGGGGCACCACCGCCTTCCTCAACCGCGGCCCGGGTGGCGCCGACCCCGGGGGCGGAGAGGCTGCCGCGCCGCCCGCCGCCAGTGACGGACCGTCCGGCGCCCCGTCCTCCCCGGCCGGGGAGGACGACTCCAAGGGCAGCGAGAAGGACAAGGGCAAGGACAAGGACAACGGCAAGGAAGACGGGAAGGACAAGGAAGGTACAGAAGAGGAGCAGGGCGGAGAGGACGGCGGCGACTCCGGCGGCGGGCAGAGCGACGGGGCCGGTTCCGGCGAGGGCGCGTCCTCGGGCGGAGGCGAGGGGGCCGGAGCTTCCGGCGGAGGCGGCACACAGGACGGGTCCGGCTCGTCCGGTTCGGGGGGCTCCGGCGGTGCCGCGAAGCCGCCCGCCCAGGACCCCGCCCCGGACGGCCGGGTGCCGCAGCAGTTCGTCGGGACCTGGTCCATCGCGTCCCAGTACGACGCCCTCCAGCCGCACACCGTGGTCATCCGGCGGGTGTCGCCCGGGCAGTCGGCGGTGACCCTCATCGCCGACGTCCAGGGGTCGGGGCACTGCGAGTACACGGCGAAGCTCAGCTCCGTGGCGGACGGCGGGAACCGGATCAACGTCGGTACCGCCGTGGTGGACAAGGCCCGTTCCGGCGGGGTGTGCCGCGACACCGACCCCTCGTTCTTCACCGTCGCCGGCTCCGGCATCCTGCACGACGTCGGGCCCGCCCACGGCAGCGGCTATCGCTACAACCGCGCCTGAGCGGGCCCGTCACTCCGGAATCGACGGTCCGGAACCGGCCGACGTCCGACGCCCG Мінімум інформації про послідовність Розмір (у п.н.) Локалізація orf
(що секвенували – хромосома, плазміда тощо; з якого організму)

1

2294

167

2239

Слайд 32

Genome

www.ncbi.nlm.nih.gov/genome

Genome www.ncbi.nlm.nih.gov/genome
Имя файла: Біоінформатика.-Бази-даних.-Модель-NCBI.-Lab.1.pptx
Количество просмотров: 38
Количество скачиваний: 0