Слайд 2Покрытие
Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида.
Для каждой задачи необходимо своё покрытие (обычно устанавливают не менее, чем 30-тикратное покрытие).
Таким образом, “эффективный” объём данных равен выходу секвенирования, делённому на покрытие.
Слайд 3Оценка необходимого покрытия
Вероятность того, что нуклеотид не будет определён (P), исходя из
глубины покрытия (c) вычисляется по формуле Ландела–Ватермана:
P=e-c
Теоретически достаточное покрытие должно позволять определить все нуклеотиды в геноме длиной L (P*L<1).
Например, для генома человека (L=3*109 п.о.) теоретически достаточно 23-кратного покрытия
Слайд 4Анализ данных секвенирования
1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству).
Результат:
“примесные” риды удаляются, в остальных обрезаются неточно определённые нуклеотиды
2. Сборка генома (слияние ридов для коротких фрагментов) с помощью специальной программы – ассемблера.
Результат: набор длинных фрагментов (контиги) или их упорядоченная последовательность, образующая скэффолд.
3. Интерпретация данных (аннотация)
поиск кодирующих последовательностей и их структурное и функциональное описание
Слайд 51. Оценка качества ридов:
FASTQ – формат записи ридов
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
Каждая последовательность занимает 4
строки:
– первая начинается с @ и содержит название и описание последовательности;
– вторая содержит последовательность (знаки A,G,C,T);
– третья начинается с + и может содержать примечания (технические комментарии секвенирования);
– четвёртая содержит столько же символов, что и вторая, каждый символ указывает вероятность ошибочного определения соответствующего нуклеотида по шкале Phred.
Слайд 6Определение качества ридов по шкале Phred
Каждый символ означает какое-то число (Q) от
0 до 100. Вероятность ошибочного определения нуклеотида (P), качество которого оценивается как Q равна:
P = 10-Q/10
“Хорошее” качество при Q>30 (P<0,001=0,1%)
Слайд 7Phred и ASCII:
номера присваивают начиная с 33 символа (!=0) (Phred+33) или с
64 (@=0) (Phred+64)
Слайд 9Примеры качества по шкалам Phred+33 и Phred+64
Слайд 10Источники ошибок в ридах: примеси
Примеси бывают:
1. Артефактные (ошибки секвенирования)
образование димеров адаптеров
чтение сквозь
– вставки слишком короткие
2. Биологические – контаминация
Слайд 11Источники ошибок в ридах: фазировка
Фрагменты в одном кластере строятся с разной скоростью
– секвенатору сложно определить верный нуклеотид.
Слайд 12Программа FastQC – контроль качества ридов:
1. Среднее нуклеотидное качество – хорошее
(все Me>25,
все Q1>10)
Слайд 13Программа FastQC – контроль качества ридов:
1. Среднее нуклеотидное качество – неудовлетворительное (есть
Me<20 или Q1<5)
Слайд 14Программа FastQC – контроль качества ридов:
2. Средний нуклеотидный состав ридов
Слайд 15Программа FastQC – контроль качества ридов:
2. Средний нуклеотидный состав ридов
Слайд 16Программа FastQC – контроль качества ридов:
3. Чрезмерно представленные последовательности
Слайд 17Очистка “сырых” ридов: тримминг
1. Удаление адаптерных последовательностей из ридов
2. Отсечение с конца
ридов нуклеотидов, качество которых ниже определённого уровня (Q<20 или Q<30)
Инструмент для тримминга: программа Trimmomatic
Слайд 18Особый этап для метагеномики – Сортировка данных (биннинг)
1. Методы, основанные на нуклеотидном
составе
GC-состав
динуклеотидный состав
тринуклеотидный состав
тетрануклеотидный состав
2. Методы, основанные на гомологии
сравнение с базой данных
Слайд 192. Сборка генома (assemby)
de novo (сборка не секвенированного ранее генома)
– метод OLC
(overlap layout concensus) (перекрытие фрагментов) – для малого количества длинных фрагментов (Sanger)
– графы де Брёйна – для большого количества коротких фрагментов (NGS)
сборка генома, аналогичного ранее собранному (ресеквенирование) референсному геному (выравнивание на геном, alignment)
– хэш-таблицы
– суффиксные деревья
Слайд 20Сборка de novo: Overlap layout consensus: 1
Поиск пар ридов, имеющих общие k-меры
(последовательности длиной k, k=24), смещение двух строк относительно друг друга (выравнивание) до максимального совмещения (>95% сходства)
Слайд 21Сборка de novo: Overlap layout consensus: 2
На базе попарного выравнивания строят множественное
выравнивание, корректируют ошибки
Слайд 23Результат сборки: контиги и скэффолды
Слайд 24Качество сборки генома
N50 – длина контига, который вместе с остальными контигами большей
длины покрывает не менее 50% генома (обычно под геномом понимают суммарную длину всех контигов).
L50 – число контигов не меньших чем N50.
Пример: две сборки генома длиной 5 Mb
Слайд 25Формат представления нуклеотидных последовательностей – FASTA
>OTU-160-1 Acinetobacter baumannii
CCTACGGGGGGCTGCAGTGGGGAATATTGGACAATGGGGGGAACCCTGATCCAGCCATGCCGCGTGTGTGAAGAAGGCCTTATGGTTGTAAAGCACTTTAAGCGAGGAGGAGGCTACTCTAGTTAATACCTAGGGATAGTGGACGTTACTCGCAGAATAA
Каждая последовательность занимает две строки:
1).
первая строка начинается со знака > и содержит идентификатор (за которым эта последовательность закреплена в некоторой базе данных), через пробел следует опциональное словесное описание;
2). вторая строка – сама последовательность нуклеотидов.
Слайд 263. Аннотация
1. Поиск белок-кодирующих последовательностей
на основе гомологии – сравнение с уже известными
генами
аннотация ab initio – статистический поиск по характерным для белок-кодирующих участков последовательностям (ATG.....)
2. Поиск других кодирующих последовательностей (гены РНК)