Содержание
- 2. Покрытие Покрытие (глубина секвенирования) – важный параметр методов NGS: кратность прочтения каждого нуклеотида. Для каждой задачи
- 3. Оценка необходимого покрытия Вероятность того, что нуклеотид не будет определён (P), исходя из глубины покрытия (c)
- 4. Анализ данных секвенирования 1. Очистка “сырых” данных (raw data) (фильтрация ридов по качеству). Результат: “примесные” риды
- 5. 1. Оценка качества ридов: FASTQ – формат записи ридов @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 Каждая последовательность занимает
- 6. Определение качества ридов по шкале Phred Каждый символ означает какое-то число (Q) от 0 до 100.
- 7. Phred и ASCII: номера присваивают начиная с 33 символа (!=0) (Phred+33) или с 64 (@=0) (Phred+64)
- 8. Кодировка качества Phred+33
- 9. Примеры качества по шкалам Phred+33 и Phred+64
- 10. Источники ошибок в ридах: примеси Примеси бывают: 1. Артефактные (ошибки секвенирования) образование димеров адаптеров чтение сквозь
- 11. Источники ошибок в ридах: фазировка Фрагменты в одном кластере строятся с разной скоростью – секвенатору сложно
- 12. Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – хорошее (все Me>25, все Q1>10)
- 13. Программа FastQC – контроль качества ридов: 1. Среднее нуклеотидное качество – неудовлетворительное (есть Me
- 14. Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов
- 15. Программа FastQC – контроль качества ридов: 2. Средний нуклеотидный состав ридов
- 16. Программа FastQC – контроль качества ридов: 3. Чрезмерно представленные последовательности
- 17. Очистка “сырых” ридов: тримминг 1. Удаление адаптерных последовательностей из ридов 2. Отсечение с конца ридов нуклеотидов,
- 18. Особый этап для метагеномики – Сортировка данных (биннинг) 1. Методы, основанные на нуклеотидном составе GC-состав динуклеотидный
- 19. 2. Сборка генома (assemby) de novo (сборка не секвенированного ранее генома) – метод OLC (overlap layout
- 20. Сборка de novo: Overlap layout consensus: 1 Поиск пар ридов, имеющих общие k-меры (последовательности длиной k,
- 21. Сборка de novo: Overlap layout consensus: 2 На базе попарного выравнивания строят множественное выравнивание, корректируют ошибки
- 22. Сборка de novo: Графы де Брёйна
- 23. Результат сборки: контиги и скэффолды
- 24. Качество сборки генома N50 – длина контига, который вместе с остальными контигами большей длины покрывает не
- 25. Формат представления нуклеотидных последовательностей – FASTA >OTU-160-1 Acinetobacter baumannii CCTACGGGGGGCTGCAGTGGGGAATATTGGACAATGGGGGGAACCCTGATCCAGCCATGCCGCGTGTGTGAAGAAGGCCTTATGGTTGTAAAGCACTTTAAGCGAGGAGGAGGCTACTCTAGTTAATACCTAGGGATAGTGGACGTTACTCGCAGAATAA Каждая последовательность занимает две строки: 1).
- 26. 3. Аннотация 1. Поиск белок-кодирующих последовательностей на основе гомологии – сравнение с уже известными генами аннотация
- 28. Скачать презентацию