Обработка данных секвенирования

Содержание

Слайд 2

Покрытие

Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида.

Покрытие Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого
Для каждой задачи необходимо своё покрытие (обычно устанавливают не менее, чем 30-тикратное покрытие).
Таким образом, “эффективный” объём данных равен выходу секвенирования, делённому на покрытие.

Слайд 3

Оценка необходимого покрытия

Вероятность того, что нуклеотид не будет определён (P), исходя из

Оценка необходимого покрытия Вероятность того, что нуклеотид не будет определён (P), исходя
глубины покрытия (c) вычисляется по формуле Ландела–Ватермана:
P=e-c
Теоретически достаточное покрытие должно позволять определить все нуклеотиды в геноме длиной L (P*L<1).
Например, для генома человека (L=3*109 п.о.) теоретически достаточно 23-кратного покрытия

Слайд 4

Анализ данных секвенирования

1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству).
Результат:

Анализ данных секвенирования 1. Очистка “сырых” данных (raw data) (фильтрация ридов по
“примесные” риды удаляются, в остальных обрезаются неточно определённые нуклеотиды
2. Сборка генома (слияние ридов для коротких фрагментов) с помощью специальной программы – ассемблера.
Результат: набор длинных фрагментов (контиги) или их упорядоченная последовательность, образующая скэффолд.
3. Интерпретация данных (аннотация)
поиск кодирующих последовательностей и их структурное и функциональное описание

Слайд 5

1. Оценка качества ридов: FASTQ – формат записи ридов

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
Каждая последовательность занимает 4

1. Оценка качества ридов: FASTQ – формат записи ридов @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +
строки:
– первая начинается с @ и содержит название и описание последовательности;
– вторая содержит последовательность (знаки A,G,C,T);
– третья начинается с + и может содержать примечания (технические комментарии секвенирования);
– четвёртая содержит столько же символов, что и вторая, каждый символ указывает вероятность ошибочного определения соответствующего нуклеотида по шкале Phred.

Слайд 6

Определение качества ридов по шкале Phred

Каждый символ означает какое-то число (Q) от

Определение качества ридов по шкале Phred Каждый символ означает какое-то число (Q)
0 до 100. Вероятность ошибочного определения нуклеотида (P), качество которого оценивается как Q равна:
P = 10-Q/10
“Хорошее” качество при Q>30 (P<0,001=0,1%)

Слайд 7

Phred и ASCII: номера присваивают начиная с 33 символа (!=0) (Phred+33) или с

Phred и ASCII: номера присваивают начиная с 33 символа (!=0) (Phred+33) или с 64 (@=0) (Phred+64)
64 (@=0) (Phred+64)

Слайд 8

Кодировка качества Phred+33

Кодировка качества Phred+33

Слайд 9

Примеры качества по шкалам Phred+33 и Phred+64

Примеры качества по шкалам Phred+33 и Phred+64

Слайд 10

Источники ошибок в ридах: примеси

Примеси бывают:
1. Артефактные (ошибки секвенирования)
образование димеров адаптеров
чтение сквозь

Источники ошибок в ридах: примеси Примеси бывают: 1. Артефактные (ошибки секвенирования) образование
– вставки слишком короткие
2. Биологические – контаминация

Слайд 11

Источники ошибок в ридах: фазировка

Фрагменты в одном кластере строятся с разной скоростью

Источники ошибок в ридах: фазировка Фрагменты в одном кластере строятся с разной
– секвенатору сложно определить верный нуклеотид.

Слайд 12

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – хорошее (все Me>25,

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – хорошее (все Me>25, все Q1>10)
все Q1>10)

Слайд 13

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – неудовлетворительное (есть

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – неудовлетворительное (есть Me
Me<20 или Q1<5)

Слайд 14

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Слайд 15

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Слайд 16

Программа FastQC – контроль качества ридов: 3. Чрезмерно представленные последовательности

Программа FastQC – контроль качества ридов: 3. Чрезмерно представленные последовательности

Слайд 17

Очистка “сырых” ридов: тримминг

1. Удаление адаптерных последовательностей из ридов
2. Отсечение с конца

Очистка “сырых” ридов: тримминг 1. Удаление адаптерных последовательностей из ридов 2. Отсечение
ридов нуклеотидов, качество которых ниже определённого уровня (Q<20 или Q<30)
Инструмент для тримминга: программа Trimmomatic

Слайд 18

Особый этап для метагеномики – Сортировка данных (биннинг)

1. Методы, основанные на нуклеотидном

Особый этап для метагеномики – Сортировка данных (биннинг) 1. Методы, основанные на
составе
GC-состав
динуклеотидный состав
тринуклеотидный состав
тетрануклеотидный состав
2. Методы, основанные на гомологии
сравнение с базой данных

Слайд 19

2. Сборка генома (assemby)

de novo (сборка не секвенированного ранее генома)
– метод OLC

2. Сборка генома (assemby) de novo (сборка не секвенированного ранее генома) –
(overlap layout concensus) (перекрытие фрагментов) – для малого количества длинных фрагментов (Sanger)
– графы де Брёйна – для большого количества коротких фрагментов (NGS)
сборка генома, аналогичного ранее собранному (ресеквенирование) референсному геному (выравнивание на геном, alignment)
– хэш-таблицы
– суффиксные деревья

Слайд 20

Сборка de novo: Overlap layout consensus: 1

Поиск пар ридов, имеющих общие k-меры

Сборка de novo: Overlap layout consensus: 1 Поиск пар ридов, имеющих общие
(последовательности длиной k, k=24), смещение двух строк относительно друг друга (выравнивание) до максимального совмещения (>95% сходства)

Слайд 21

Сборка de novo: Overlap layout consensus: 2

На базе попарного выравнивания строят множественное

Сборка de novo: Overlap layout consensus: 2 На базе попарного выравнивания строят множественное выравнивание, корректируют ошибки
выравнивание, корректируют ошибки

Слайд 22

Сборка de novo: Графы де Брёйна

Сборка de novo: Графы де Брёйна

Слайд 23

Результат сборки: контиги и скэффолды

Результат сборки: контиги и скэффолды

Слайд 24

Качество сборки генома

N50 – длина контига, который вместе с остальными контигами большей

Качество сборки генома N50 – длина контига, который вместе с остальными контигами
длины покрывает не менее 50% генома (обычно под геномом понимают суммарную длину всех контигов).
L50 – число контигов не меньших чем N50.
Пример: две сборки генома длиной 5 Mb

Слайд 25

Формат представления нуклеотидных последовательностей – FASTA

>OTU-160-1 Acinetobacter baumannii
CCTACGGGGGGCTGCAGTGGGGAATATTGGACAATGGGGGGAACCCTGATCCAGCCATGCCGCGTGTGTGAAGAAGGCCTTATGGTTGTAAAGCACTTTAAGCGAGGAGGAGGCTACTCTAGTTAATACCTAGGGATAGTGGACGTTACTCGCAGAATAA
Каждая последовательность занимает две строки:
1).

Формат представления нуклеотидных последовательностей – FASTA >OTU-160-1 Acinetobacter baumannii CCTACGGGGGGCTGCAGTGGGGAATATTGGACAATGGGGGGAACCCTGATCCAGCCATGCCGCGTGTGTGAAGAAGGCCTTATGGTTGTAAAGCACTTTAAGCGAGGAGGAGGCTACTCTAGTTAATACCTAGGGATAGTGGACGTTACTCGCAGAATAA Каждая последовательность
первая строка начинается со знака > и содержит идентификатор (за которым эта последовательность закреплена в некоторой базе данных), через пробел следует опциональное словесное описание;
2). вторая строка – сама последовательность нуклеотидов.

Слайд 26

3. Аннотация

1. Поиск белок-кодирующих последовательностей
на основе гомологии – сравнение с уже известными

3. Аннотация 1. Поиск белок-кодирующих последовательностей на основе гомологии – сравнение с
генами
аннотация ab initio – статистический поиск по характерным для белок-кодирующих участков последовательностям (ATG.....)
2. Поиск других кодирующих последовательностей (гены РНК)