Обработка данных секвенирования

Март 8, 2021

Главная
Биология
Обработка данных секвенирования

Содержание

2. Покрытие Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида. Для каждой задачи
3. Оценка необходимого покрытия Вероятность того, что нуклеотид не будет определён (P), исходя из глубины покрытия (c)
4. Анализ данных секвенирования 1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству). Результат: “примесные” риды
5. 1. Оценка качества ридов: FASTQ – формат записи ридов @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 Каждая последовательность занимает
6. Определение качества ридов по шкале Phred Каждый символ означает какое-то число (Q) от 0 до 100.
7. Phred и ASCII: номера присваивают начиная с 33 символа (!=0) (Phred+33) или с 64 (@=0) (Phred+64)
8. Кодировка качества Phred+33
9. Примеры качества по шкалам Phred+33 и Phred+64
10. Источники ошибок в ридах: примеси Примеси бывают: 1. Артефактные (ошибки секвенирования) образование димеров адаптеров чтение сквозь
11. Источники ошибок в ридах: фазировка Фрагменты в одном кластере строятся с разной скоростью – секвенатору сложно
12. Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – хорошее (все Me>25, все Q1>10)
13. Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – неудовлетворительное (есть Me
14. Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов
15. Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов
16. Программа FastQC – контроль качества ридов: 3. Чрезмерно представленные последовательности
17. Очистка “сырых” ридов: тримминг 1. Удаление адаптерных последовательностей из ридов 2. Отсечение с конца ридов нуклеотидов,
18. Особый этап для метагеномики – Сортировка данных (биннинг) 1. Методы, основанные на нуклеотидном составе GC-состав динуклеотидный
19. 2. Сборка генома (assemby) de novo (сборка не секвенированного ранее генома) – метод OLC (overlap layout
20. Сборка de novo: Overlap layout consensus: 1 Поиск пар ридов, имеющих общие k-меры (последовательности длиной k,
21. Сборка de novo: Overlap layout consensus: 2 На базе попарного выравнивания строят множественное выравнивание, корректируют ошибки
22. Сборка de novo: Графы де Брёйна
23. Результат сборки: контиги и скэффолды
24. Качество сборки генома N50 – длина контига, который вместе с остальными контигами большей длины покрывает не
25. Формат представления нуклеотидных последовательностей – FASTA >OTU-160-1 Acinetobacter baumannii CCTACGGGGGGCTGCAGTGGGGAATATTGGACAATGGGGGGAACCCTGATCCAGCCATGCCGCGTGTGTGAAGAAGGCCTTATGGTTGTAAAGCACTTTAAGCGAGGAGGAGGCTACTCTAGTTAATACCTAGGGATAGTGGACGTTACTCGCAGAATAA Каждая последовательность занимает две строки: 1).
26. 3. Аннотация 1. Поиск белок-кодирующих последовательностей на основе гомологии – сравнение с уже известными генами аннотация
28. Скачать презентацию

Покрытие
Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида.

Для каждой задачи необходимо своё покрытие (обычно устанавливают не менее, чем 30-тикратное покрытие).
Таким образом, “эффективный” объём данных равен выходу секвенирования, делённому на покрытие.

Оценка необходимого покрытия
Вероятность того, что нуклеотид не будет определён (P), исходя из

глубины покрытия (c) вычисляется по формуле Ландела–Ватермана:
P=e-c
Теоретически достаточное покрытие должно позволять определить все нуклеотиды в геноме длиной L (P*L<1).
Например, для генома человека (L=3*109 п.о.) теоретически достаточно 23-кратного покрытия

Слайд 4

Анализ данных секвенирования
1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству).
Результат:

“примесные” риды удаляются, в остальных обрезаются неточно определённые нуклеотиды
2. Сборка генома (слияние ридов для коротких фрагментов) с помощью специальной программы – ассемблера.
Результат: набор длинных фрагментов (контиги) или их упорядоченная последовательность, образующая скэффолд.
3. Интерпретация данных (аннотация)
поиск кодирующих последовательностей и их структурное и функциональное описание

Слайд 5

1. Оценка качества ридов: FASTQ – формат записи ридов
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65
Каждая последовательность занимает 4

строки:
– первая начинается с @ и содержит название и описание последовательности;
– вторая содержит последовательность (знаки A,G,C,T);
– третья начинается с + и может содержать примечания (технические комментарии секвенирования);
– четвёртая содержит столько же символов, что и вторая, каждый символ указывает вероятность ошибочного определения соответствующего нуклеотида по шкале Phred.

Слайд 6

Определение качества ридов по шкале Phred
Каждый символ означает какое-то число (Q) от

0 до 100. Вероятность ошибочного определения нуклеотида (P), качество которого оценивается как Q равна:
P = 10-Q/10
“Хорошее” качество при Q>30 (P<0,001=0,1%)

Слайд 7

Phred и ASCII: номера присваивают начиная с 33 символа (!=0) (Phred+33) или с

64 (@=0) (Phred+64)

Слайд 8

Кодировка качества Phred+33

Слайд 9

Примеры качества по шкалам Phred+33 и Phred+64

Слайд 10

Источники ошибок в ридах: примеси
Примеси бывают:
1. Артефактные (ошибки секвенирования)
образование димеров адаптеров
чтение сквозь

– вставки слишком короткие
2. Биологические – контаминация

Слайд 11

Источники ошибок в ридах: фазировка
Фрагменты в одном кластере строятся с разной скоростью

– секвенатору сложно определить верный нуклеотид.

Слайд 12

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – хорошее (все Me>25,

все Q1>10)

Слайд 13

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – неудовлетворительное (есть

Me<20 или Q1<5)

Слайд 14

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Слайд 15

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Слайд 16

Программа FastQC – контроль качества ридов: 3. Чрезмерно представленные последовательности

Слайд 17

Очистка “сырых” ридов: тримминг
1. Удаление адаптерных последовательностей из ридов
2. Отсечение с конца

ридов нуклеотидов, качество которых ниже определённого уровня (Q<20 или Q<30)
Инструмент для тримминга: программа Trimmomatic

Слайд 18

Особый этап для метагеномики – Сортировка данных (биннинг)
1. Методы, основанные на нуклеотидном

составе
GC-состав
динуклеотидный состав
тринуклеотидный состав
тетрануклеотидный состав
2. Методы, основанные на гомологии
сравнение с базой данных

Слайд 19

2. Сборка генома (assemby)
de novo (сборка не секвенированного ранее генома)
– метод OLC

(overlap layout concensus) (перекрытие фрагментов) – для малого количества длинных фрагментов (Sanger)
– графы де Брёйна – для большого количества коротких фрагментов (NGS)
сборка генома, аналогичного ранее собранному (ресеквенирование) референсному геному (выравнивание на геном, alignment)
– хэш-таблицы
– суффиксные деревья

Слайд 20

Сборка de novo: Overlap layout consensus: 1
Поиск пар ридов, имеющих общие k-меры

(последовательности длиной k, k=24), смещение двух строк относительно друг друга (выравнивание) до максимального совмещения (>95% сходства)

Слайд 21

Сборка de novo: Overlap layout consensus: 2
На базе попарного выравнивания строят множественное

выравнивание, корректируют ошибки

Слайд 22

Сборка de novo: Графы де Брёйна

Слайд 23

Результат сборки: контиги и скэффолды

Слайд 24

Качество сборки генома
N50 – длина контига, который вместе с остальными контигами большей

длины покрывает не менее 50% генома (обычно под геномом понимают суммарную длину всех контигов).
L50 – число контигов не меньших чем N50.
Пример: две сборки генома длиной 5 Mb

Слайд 25

Формат представления нуклеотидных последовательностей – FASTA
>OTU-160-1 Acinetobacter baumannii
CCTACGGGGGGCTGCAGTGGGGAATATTGGACAATGGGGGGAACCCTGATCCAGCCATGCCGCGTGTGTGAAGAAGGCCTTATGGTTGTAAAGCACTTTAAGCGAGGAGGAGGCTACTCTAGTTAATACCTAGGGATAGTGGACGTTACTCGCAGAATAA
Каждая последовательность занимает две строки:
1).

первая строка начинается со знака > и содержит идентификатор (за которым эта последовательность закреплена в некоторой базе данных), через пробел следует опциональное словесное описание;
2). вторая строка – сама последовательность нуклеотидов.

Слайд 26

3. Аннотация
1. Поиск белок-кодирующих последовательностей
на основе гомологии – сравнение с уже известными

генами
аннотация ab initio – статистический поиск по характерным для белок-кодирующих участков последовательностям (ATG.....)
2. Поиск других кодирующих последовательностей (гены РНК)

Обработка данных секвенирования

Содержание

ПокрытиеПокрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида.

Оценка необходимого покрытияВероятность того, что нуклеотид не будет определён (P), исходя из

Анализ данных секвенирования1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству).Результат:

1. Оценка качества ридов: FASTQ – формат записи ридов@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65Каждая последовательность занимает 4

Определение качества ридов по шкале PhredКаждый символ означает какое-то число (Q) от

Phred и ASCII: номера присваивают начиная с 33 символа (!=0) (Phred+33) или с

Кодировка качества Phred+33

Примеры качества по шкалам Phred+33 и Phred+64

Источники ошибок в ридах: примесиПримеси бывают:1. Артефактные (ошибки секвенирования)образование димеров адаптеровчтение сквозь

Источники ошибок в ридах: фазировкаФрагменты в одном кластере строятся с разной скоростью

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – хорошее (все Me>25,

Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – неудовлетворительное (есть

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов

Программа FastQC – контроль качества ридов: 3. Чрезмерно представленные последовательности

Очистка “сырых” ридов: тримминг1. Удаление адаптерных последовательностей из ридов2. Отсечение с конца

Особый этап для метагеномики – Сортировка данных (биннинг)1. Методы, основанные на нуклеотидном

2. Сборка генома (assemby)de novo (сборка не секвенированного ранее генома)– метод OLC

Сборка de novo: Overlap layout consensus: 1Поиск пар ридов, имеющих общие k-меры

Сборка de novo: Overlap layout consensus: 2На базе попарного выравнивания строят множественное

Сборка de novo: Графы де Брёйна

Результат сборки: контиги и скэффолды

Качество сборки геномаN50 – длина контига, который вместе с остальными контигами большей

3. Аннотация1. Поиск белок-кодирующих последовательностейна основе гомологии – сравнение с уже известными

Похожие презентации

Покрытие
Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида.

Оценка необходимого покрытия
Вероятность того, что нуклеотид не будет определён (P), исходя из

Анализ данных секвенирования
1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству).
Результат:

1. Оценка качества ридов: FASTQ – формат записи ридов
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65
Каждая последовательность занимает 4

Определение качества ридов по шкале Phred
Каждый символ означает какое-то число (Q) от

Источники ошибок в ридах: примеси
Примеси бывают:
1. Артефактные (ошибки секвенирования)
образование димеров адаптеров
чтение сквозь

Источники ошибок в ридах: фазировка
Фрагменты в одном кластере строятся с разной скоростью

Очистка “сырых” ридов: тримминг
1. Удаление адаптерных последовательностей из ридов
2. Отсечение с конца

Особый этап для метагеномики – Сортировка данных (биннинг)
1. Методы, основанные на нуклеотидном

2. Сборка генома (assemby)
de novo (сборка не секвенированного ранее генома)
– метод OLC

Сборка de novo: Overlap layout consensus: 1
Поиск пар ридов, имеющих общие k-меры

Сборка de novo: Overlap layout consensus: 2
На базе попарного выравнивания строят множественное

Качество сборки генома
N50 – длина контига, который вместе с остальными контигами большей

3. Аннотация
1. Поиск белок-кодирующих последовательностей
на основе гомологии – сравнение с уже известными