Биоинформатическая обработка NGS-данных

Содержание

Слайд 2

Center for Research Informatics, The University of Chicago, Chicago, IL, USA

Контроль качества

Center for Research Informatics, The University of Chicago, Chicago, IL, USA Контроль

Предварительная
обработка

Выравнивание

Постобработка
полученных данных

Определение
вариантов

Аннотация

Фильтрация,
Приоритизация

Слайд 3

FastQ

Текстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и данные о

FastQ Текстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и данные
качестве прочтения каждого нуклеотида
Содержит 4 строки:
Идентификатор последовательности
Прочтение
Комментарий
Phred quality score

Clinical Applications for Next-Generation Sequencing, Academic press, 2015

Слайд 4

Quality control (QC)

Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов с низким

Quality control (QC) Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов с
качеством прочтения
Cutadapt, Trimmomatic

Контроль качества прочтений по ряду параметров
FastQC

Слайд 5

Выравнивание (alignment )

AAC - GCTAACGGTAA
AACCGCGAAC - - TAA

AACGCTAACGGTAA
AACCGCGAACTAA

BWA, Bowtie2, Novoalign
На выходе

Выравнивание (alignment ) AAC - GCTAACGGTAA AACCGCGAAC - - TAA AACGCTAACGGTAA AACCGCGAACTAA
файл в формате SAM/BAM
SAM = Sequence Alignment Map
BAM = Binary Alignment Map
После выравнивания производится постобработка полученных данных с целью минимизировать количество ошибок, генерируемых на следующем этапе

Этап картирования на референсный геном

Референс

Рид

Слайд 6

Определение вариантов (variant calling)

На этом этапе программа определяет варианты, отличающиеся от референсной

Определение вариантов (variant calling) На этом этапе программа определяет варианты, отличающиеся от
последовательности (SNPs, SNVs, InDels)
SAMtools и GATK
На выходе = VCF (Variant Call Format)
Вариативность в геномах:
SNP = Single Nucleotide Polymorphysm (однонуклеотидный полиморфизм)
InDel = инсерция или делеция одного и более нуклеотидов

Слайд 7

VCF

Стандартный формат для хранения данных о ДНК полиморфизмах, таких как: замены (SNPs),

VCF Стандартный формат для хранения данных о ДНК полиморфизмах, таких как: замены
вставки, делеции и структурные варианты (SVs)

P.Danecek et al.

Слайд 8

Аннотация, фильтрация, приоритизация

Проводится аннотирование вариантов и предсказание их влияния на кодируемый белок

Аннотация, фильтрация, приоритизация Проводится аннотирование вариантов и предсказание их влияния на кодируемый
на основе анализа геномных координат фрагмента
(поиск по базам данных известных мутаций )
ANNOVAR, SnpEff
Убираются варианты с низким покрытием и низким качеством
Варианты ранжируются по частоте, приоритет отдается более редким мутациям
(предполагается, что у них большая степень вероятности вызвать заболевание)
Приоритизация вариантов по функциональному эффекту
(чей эффект наиболее склонен вызвать заболевание)
Например: нонсенс мутация обычно наносит больший вред, чем миссенс мутация
Для неизвестных вариантов предсказывается возможная патогенность на основе разработанных утилит

Слайд 9

Визуализация

Integrative Genomic Viewer (IGV)
http://www.broadinstitute.org/igv

Thorvaldsdóttir et al.

Визуализация Integrative Genomic Viewer (IGV) http://www.broadinstitute.org/igv Thorvaldsdóttir et al.

Слайд 10

Типы мутаций

Nonsense
Однонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона

Мутации с

Типы мутаций Nonsense Однонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона Мутации
заменой нуклеотида

Missense
Однонуклеотидные мутации, приводящие к замене аминокислоты в белке

Слайд 11

Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов


Нормальная ДНК

Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов Нормальная ДНК GAA-TGA-CTG-TCT-GGA
GAA-TGA-CTG-TCT-GGA
Нормальный белок Лей-Тре-Асп-Арг-Про

Мутантная ДНК GAA-GAC-TGT-CTG-GA
Мутантный белок Лей-Лей-Тре-Асп-

Делеция T

Frameshift
(со сдвигом рамки считывания)

Слайд 12

Базы данных геномных вариантов человека

Медицинская генетика 2017, №7. Руководство по интерпретации данных,

Базы данных геномных вариантов человека Медицинская генетика 2017, №7. Руководство по интерпретации

полученных методами массового параллельного секвенирования (MGS).

Слайд 13

Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico)

Медицинская генетика 2017, №7. Руководство

Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico) Медицинская генетика 2017, №7.
по интерпретации данных,
полученных методами массового параллельного секвенирования (MGS).

Слайд 14

MutationTaster
www.mutationtaster.org

Polyphen2
http://genetics.bwh.harvard.edu/pph2/

MutationTaster www.mutationtaster.org Polyphen2 http://genetics.bwh.harvard.edu/pph2/

Слайд 15

Критерии для интерпретации вариантов

Для каждого варианта нуклеотидной последовательности специалист подбирает подходящие

Критерии для интерпретации вариантов Для каждого варианта нуклеотидной последовательности специалист подбирает подходящие
признаки, которые затем объединяет в соответствии с приведенными критериями:
1. Патогенный (p): Очень сильный (pvs1), Сильный (ps1-4), Средний (pm1-5), Вспомогательный (pp1-5)
2. Вероятно патогенный
3. Неопределенного значения
4. Доброкачественный(b): Очень сильный (ba1), Сильный (bs1-4), Вспомогательный (bp1-6)
5. Вероятно доброкачественный
Если вариант не отвечает критериям любого набора, или доказательства патогенности и доброкачественности противоречивы, то такой вариант следует считать вариантом неопределенного значения

Слайд 16

Правила комбинирования критериев для интерпретации вариантов

Медицинская генетика 2017, №7. Руководство по

Правила комбинирования критериев для интерпретации вариантов Медицинская генетика 2017, №7. Руководство по
интерпретации данных,
полученных методами массового параллельного секвенирования (MGS).

Слайд 17

Пример медицинского заключения

Медицинская генетика 2017, №7. Руководство по интерпретации данных,
полученных методами

Пример медицинского заключения Медицинская генетика 2017, №7. Руководство по интерпретации данных, полученных
массового параллельного секвенирования (MGS).
Имя файла: Биоинформатическая-обработка-NGS-данных.pptx
Количество просмотров: 50
Количество скачиваний: 1