Оценка качества прочтений NGS

Содержание

Слайд 2

Примеры экспериментов в основе которых лежит NGS

Этап обработки данных

Формат данных

Ресеквенирование человеческих

Примеры экспериментов в основе которых лежит NGS Этап обработки данных Формат данных
генов

RNA - seq

Формат данных

Этап обработки данных

Сырые риды (FASTQ)

Выравненные риды (SAM/BAM)

Сырой набор вариантов (VCF)

Аннотированные варианты (VCF)

Выравнивание

Определение вариантов

аннотация

Интерпретация отличий от референса / диагноз

Сырые риды (FASTQ)

Выравненные риды (SAM/BAM)

Уровни экспрессии FPKM (TCV)

Список дифф. экспрес. генов

Выравнивание

Подсчет количества ридов, выравненных в конкретное место

Анализ диф. экспресии

Интерпретация DEG / изменение в сигнальных и метаболических путях

Слайд 3

Сырые данные на выходе у секвенатора

Этап обработки данных

Формат данных

Ресеквенирование человеческих генов

RNA -

Сырые данные на выходе у секвенатора Этап обработки данных Формат данных Ресеквенирование
seq

Формат данных

Этап обработки данных

Сырые риды (FASTQ)

Сырой набор вариантов (VCF)

Аннотированные варианты (VCF)

Выравнивание

Определение вариантов

аннотация

Интерпретация отличий от референса / диагноз

Сырые риды (FASTQ)

Выравненные риды (SAM/BAM)

Уровни экспрессии FPKM (TCV)

Список дифф. экспрес. генов

Выравнивание

Подсчет количества ридов, выравненных в конкретное место

Анализ диф. экспресии

Интерпретация DEG / изменение в сигнальных и метаболических путях

Выравненные риды (SAM/BAM)

Слайд 4

Контроль качества обязательный этап

Этап обработки данных

Формат данных

Ресеквенирование человеческих генов

RNA - seq

Формат данных

Этап

Контроль качества обязательный этап Этап обработки данных Формат данных Ресеквенирование человеческих генов
обработки данных

Сырые риды (FASTQ)

Сырой набор вариантов (VCF)

Аннотированные варианты (VCF)

Выравнивание

Определение вариантов

аннотация

Интерпретация отличий от референса / диагноз

Сырые риды (FASTQ)

Выравненные риды (SAM/BAM)

Уровни экспрессии FPKM (TCV)

Список дифф. экспрес. генов

Выравнивание

Подсчет количества ридов, выравненных в конкретное место

Анализ диф. экспресии

Интерпретация DEG / изменение в сигнальных и метаболических путях

Выравненные риды (SAM/BAM)

Контроль качества

Контроль качества

Слайд 5

А на кой черт оно собственно надо?

А на кой черт оно собственно надо?

Слайд 6

А на кой черт оно собственно надо?

Сырые данные, полученные в ходе работы

А на кой черт оно собственно надо? Сырые данные, полученные в ходе
секвенатора. Их вы подает на вход вашего pipeline. Часто вы начинаете с FASTQ файлов.

Слайд 7

А на кой черт оно собственно надо?

Сырые данные, полученные в ходе работы

А на кой черт оно собственно надо? Сырые данные, полученные в ходе
секвенатора. Их вы подает на вход вашего pipeline. Часто вы начинаете с FASTQ файлов.

Ваш pipeline – последовательность инструментов, которыми вы обрабатываете данные

Слайд 8

А на кой черт оно собственно надо?

Сырые данные, полученные в ходе работы

А на кой черт оно собственно надо? Сырые данные, полученные в ходе
секвенатора. Их вы подает на вход вашего pipeline. Часто вы начинаете с FASTQ файлов.

Ваш pipeline – последовательность инструментов, которыми вы обрабатываете данные

Результат анализа

Слайд 9

А на кой черт оно собственно надо?

Сырые данные, полученные в ходе работы

А на кой черт оно собственно надо? Сырые данные, полученные в ходе
секвенатора. Их вы подает на вход вашего pipeline. Часто вы начинаете с FASTQ файлов.

Ваш pipeline – последовательность инструментов, которыми вы обрабатываете данные

Результат анализа

Основное правило: GIGO -
garbage in, garbage out

Слайд 10

А на кой черт оно собственно надо?

Сырые данные, полученные в ходе работы

А на кой черт оно собственно надо? Сырые данные, полученные в ходе
секвенатора. Их вы подает на вход вашего pipeline. Часто вы начинаете с FASTQ файлов.

Ваш pipeline – последовательность инструментов, которыми вы обрабатываете данные

Результат анализа

Основной вывод: обязателен контроль качества входных данных

Слайд 11

FASTQ формат

@cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
+
9C;=;=<9@4868>9:67AA<9>65<=>591

FASTQ формат @cluster_2:UMI_ATTCCG TTTCCGGGGCACATAATCTTCAGCCGGGCGC + 9C;=;= 9:67AA 65 591

Слайд 12

FASTQ формат

@cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
+
9C;=;=<9@4868>9:67AA<9>65<=>591

Идентификатор последовательности с необязательным описанием. Начинается с символа @

FASTQ формат @cluster_2:UMI_ATTCCG TTTCCGGGGCACATAATCTTCAGCCGGGCGC + 9C;=;= 9:67AA 65 591 Идентификатор последовательности с

Слайд 13

FASTQ формат

@cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
+
9C;=;=<9@4868>9:67AA<9>65<=>591

Идентификатор последовательности с необязательным описанием. Начинается с символа @

Последовательность

FASTQ формат @cluster_2:UMI_ATTCCG TTTCCGGGGCACATAATCTTCAGCCGGGCGC + 9C;=;= 9:67AA 65 591 Идентификатор последовательности с
“прочтенных” нуклеотидов

Слайд 14

FASTQ формат

@cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
+
9C;=;=<9@4868>9:67AA<9>65<=>591

Идентификатор последовательности с необязательным описанием. Начинается с символа @

Последовательность

FASTQ формат @cluster_2:UMI_ATTCCG TTTCCGGGGCACATAATCTTCAGCCGGGCGC + 9C;=;= 9:67AA 65 591 Идентификатор последовательности с
“прочтенных” нуклеотидов

Служебная строка

Слайд 15

FASTQ формат

@cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
+
9C;=;=<9@4868>9:67AA<9>65<=>591

Идентификатор последовательности с необязательным описанием. Начинается с символа @

Последовательность

FASTQ формат @cluster_2:UMI_ATTCCG TTTCCGGGGCACATAATCTTCAGCCGGGCGC + 9C;=;= 9:67AA 65 591 Идентификатор последовательности с
“прочтенных” нуклеотидов

Служебная строка

Строка, содержащая значения качества (Q score) для нуклеотидов из второй строки.

Слайд 16

FASTQ формат

@cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
+
9C;=;=<9@4868>9:67AA<9>65<=>591

Идентификатор последовательности с необязательным описанием. Начинается с символа @

Последовательность

FASTQ формат @cluster_2:UMI_ATTCCG TTTCCGGGGCACATAATCTTCAGCCGGGCGC + 9C;=;= 9:67AA 65 591 Идентификатор последовательности с
“прочтенных” нуклеотидов

Служебная строка

Строка, содержащая значения качества (Q score) для нуклеотидов из второй строки.

Q score – показатель, зависящий от вероятности неправильного прочтения данного нуклеотида. Существует несколько вариантов определения Q score в зависимости от платформы, на которой осуществлялось секвенирование.
Qsanger = -10log10(p) Qsolexa = -10log10(p/(1-p))
Где p – вероятность, что соответствующий нуклеотид определен неверно.

Слайд 17

Q score кодируется символами ASKII

Q score кодируется символами ASKII

Слайд 18

FastQC

FastQC – инструмент, позволяющий проводить контроль качества сырых ридов.
В настоящее время

FastQC FastQC – инструмент, позволяющий проводить контроль качества сырых ридов. В настоящее
по сути стал стандартом для этой цели

Слайд 19

Quality score по основаниям в ридах

Красная линия – медианное значе ние Qscore

Quality score по основаниям в ридах Красная линия – медианное значе ние
в данной позиции рида
Синяя линия – среднее значение
График ящик с усами: желтый прямоугольник – межквартильное расстояние
«Усы» - ограничивают часть выборки между 10% и 90% значений

Слайд 20

Ухудшение качества прочтения к концу ридов

Ухудшение качества прочтения к концу ридов

Слайд 21

Quality score целых последовательностей

Этот график позволяет увидеть часть ваших последовательностей, имеющих более

Quality score целых последовательностей Этот график позволяет увидеть часть ваших последовательностей, имеющих
низкое среднее качество, чем большинство ридов. Их должно быть не много

Слайд 22

Содержание нуклеотидов по позициям в ридах

График показывает пропорцию по нуклеотидам в конкретной

Содержание нуклеотидов по позициям в ридах График показывает пропорцию по нуклеотидам в
позиции ридов. В полностью рандомизированной библиотеке вы ожидаете увидеть незначительные отличия по содержанию конкретного нуклеотида в зависимости от позиции. В общем случае оно должно быть примерно равно доле этого нуклеотида во всей ДНК данного организма.

Слайд 23

Содержание нуклеотидов по позициям в ридах

График показывает пропорцию по нуклеотидам в конкретной

Содержание нуклеотидов по позициям в ридах График показывает пропорцию по нуклеотидам в
позиции ридов. В полностью случайной библиотеке вы ожидаете увидеть незначительные отличия по содержанию конкретного нуклеотида в зависимости от позиции. В общем случае оно должно быть примерно равно доле этого нуклеотида во всей ДНК данного организма.

Слайд 24

Содержание GC по позициям в ридах

В случаной библиотеке вы ожидает увидеть незначительную

Содержание GC по позициям в ридах В случаной библиотеке вы ожидает увидеть
разницу по содержанию GC в зависимости от позиции. Общее содержание GC должно отражать содержание GC в геноме исследуемого организма. Пики на графике могут отражать наличие в вашей библиотеке чрезмерной представленности определенной последовательности.

Слайд 25

Содержание GC в целых последовательностях

Вы ожидаете увидеть похожее на нормальное распределение с

Содержание GC в целых последовательностях Вы ожидаете увидеть похожее на нормальное распределение
одним пиком. Наличие второго пика может указывать на загрязнение библиотеки ДНК второго организма.

Слайд 26

Содержание N по позиции в ридах

Наличие небольшого количество N (неопределенных нуклеотидов) в

Содержание N по позиции в ридах Наличие небольшого количество N (неопределенных нуклеотидов)
ридах, полученных секвенатором достаточно распространенное явление. FastQC выдает предупреждение, если содержание N больше 5%. Если содержание N более 20% эксперимент считается неудачным.

Слайд 27

Распределение длин прочтений

Распределение длин прочтений

Слайд 28

Распределение длин прочтений

Распределение длин прочтений

Слайд 29

Дуплицированные последовательности

В полностью рандомизированной библиотеке большинство сиквенсов встречаются в ридах только 1

Дуплицированные последовательности В полностью рандомизированной библиотеке большинство сиквенсов встречаются в ридах только
раз. Небольшой количество дупликаций может свидетельствовать об очень высоком покрытии таргетного сиквенса. Очень большой уровень дуплекации скорее всего связан с обогащением библиотеки определенным сиквенсом .

Слайд 30

Сверхпредставленные последовательности

Обычно библиотека для NGS содержит разнообразный набор последовательностей, без единственной последовательности,

Сверхпредставленные последовательности Обычно библиотека для NGS содержит разнообразный набор последовательностей, без единственной
составляющая существенную часть всего набора. Обнаружение существенно перепредставленной последовательности может означать, что такая последовательность высоко биологически значима или что при подготовке библиотеки произошла контаминация.
В этом модуле представляются все последовательности, составляющие более 0,1% от общего количества.
Для каждой такой последовательности программа произведет поиск совпадений с распространенными контаминирующими агентами и выведет лучшие сопадения. Совпадений не обязательно указывают на конкретный источник контаминации, но может указать правильное направление.
Стоит помнить, что последовательности адаптеров очень похож.

Слайд 31

Сверхпредставленные последовательности

Сверхпредставленные последовательности

Слайд 32

Содержание адаптеров

Содержание адаптеров