Сравнение точности пайплайнов обработки NGS

Содержание

Слайд 2

Зачем это всё?

Для использования NGS в клинической практике нужны точные и воспроизводимые

Зачем это всё? Для использования NGS в клинической практике нужны точные и
результаты
Новые или старые программы?
Как их сравнивать?
Кто круче?

Пайплайнов много, а правда одна

Слайд 3

Есть ли стандартный пайплайн?

?

Есть ли стандартный пайплайн? ?

Слайд 4

Нельзя просто так взять и получить vcf файл!

Нельзя просто так взять и получить vcf файл!

Слайд 5

Что мы измеряем?

Ожидание

Реальность

Что мы измеряем? Ожидание Реальность

Слайд 6

Что мы измеряем?

Что мы измеряем?

Слайд 7

Что мы измеряем?

Точность (Precision) = TP / (TP + FP) – как

Что мы измеряем? Точность (Precision) = TP / (TP + FP) –
много найденных вариантов на самом деле есть;
Чувствительность (Sensitivity) = TP / (TP + FN) – как много найденных вариантов подтвердилось с учетом не найденных вариантов;
Специфичность (Specificity) = TN / (TN + FP) – как много не найденных вариантов действительно нет

Слайд 8

«Золотой» образец NIST

Семья из Юты: NA12878 Genome in a Bottle
ОЧЕНЬ хорошо охарактеризован

«Золотой» образец NIST Семья из Юты: NA12878 Genome in a Bottle ОЧЕНЬ хорошо охарактеризован

Слайд 9

«Золотой» образец NIST

«Золотой» образец NIST

Слайд 10

http://bcb.io/2013/02/06/an-automated-ensemble-method-for-combining-and-evaluating-genomic-variants-from-multiple-callers/

http://bcb.io/2013/02/06/an-automated-ensemble-method-for-combining-and-evaluating-genomic-variants-from-multiple-callers/

Слайд 11

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome
sequencing (1) - SNP

Genome Medicine 2013 5:28
DOI: 10.1186/gm432

Слайд 12

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome
sequencing (2) - SNP

Genome Medicine 2013 5:28
DOI: 10.1186/gm432

Слайд 13

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome
sequencing (3) - InDels

Genome Medicine 2013 5:28
DOI: 10.1186/gm432

Слайд 14

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome

Low concordance of multiple variant-calling pipelines: practical implications for exome and genome
sequencing (4) - InDels

Genome Medicine 2013 5:28
DOI: 10.1186/gm432

Слайд 15

Что мы решили проверить?

Bowtie 2 (version 2.1.0, http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)
BWA-MEM (version 0.7.8, http://bio-bwa.sourceforge.net/)

Что мы решили проверить? Bowtie 2 (version 2.1.0, http://bowtie-bio.sourceforge.net/bowtie2/index.shtml) BWA-MEM (version 0.7.8,

Novoalign (version 3, http://www.novocraft.com/products/novoalign/)
GATK Haplotype Caller (https://www.broadinstitute.org/gatk/)
SAMtools (version 0.2.0, http://samtools.sourceforge.net/)
FreeBayes (version v0.9.21, https://github.com/ekg/freebayes/)
Platypus (http://www.well.ox.ac.uk/platypus)

Слайд 16

Результаты исследования iBinom NA12878 (экзом)

Чувствительность (Sensitivity), %

Точность (Precision), %

Результаты исследования iBinom NA12878 (экзом) Чувствительность (Sensitivity), % Точность (Precision), %

Слайд 17

Результаты исследования iBinom NA12877 (симулированный экзом)

Чувствительность (Sensitivity), %

Точность (Precision), %

Результаты исследования iBinom NA12877 (симулированный экзом) Чувствительность (Sensitivity), % Точность (Precision), %

Слайд 18

Результаты исследования iBinom – образец NA12878, общие SNP

Результаты исследования iBinom – образец NA12878, общие SNP

Слайд 19

Пара слов о важности настроек

bwa_samtools_new2 -- "call -c" (без специальных опций)
bwa_samtools_new3 --

Пара слов о важности настроек bwa_samtools_new2 -- "call -c" (без специальных опций)
"call -p 0.2 -c --output-type v -v -"
bwa_samtools_new4 -- "call -p 0.5e-2 -c --output-type v -v -"

Слайд 20

Выводы исследования iBinom

Не всегда 2 хороших тула хорошо работают вместе (пример: BWA-MEM

Выводы исследования iBinom Не всегда 2 хороших тула хорошо работают вместе (пример:
+ GATK HC)
Нравящиеся нам пайплайны: BWA-MEM+Samtools 2 и Novoalign+Samtools

Слайд 21

Почему разные пайплайны дают столь отличающиеся результаты?

Потому что входящие в пайплайны блоки

Почему разные пайплайны дают столь отличающиеся результаты? Потому что входящие в пайплайны
варьируются, меняя условия для принятия конечного решения о мутации
До 30% SNP и InDels лежат как раз в этой области неопределённости.
Если немного пошевелить исходные условия (покрытие, качество нуклеотидов), изменяется результат коллинга.

Слайд 22

Как проверить свои результаты
http://www.bioplanet.com/gcat

Как проверить свои результаты http://www.bioplanet.com/gcat

Слайд 23

PrecisionFDA Challenge

PrecisionFDA Challenge

Слайд 24

Тестовые файлы

Внимание! Размер каждого сжатого файла около 50 Гб

Тестовые файлы Внимание! Размер каждого сжатого файла около 50 Гб

Слайд 25

Проблемы

Невоспроизводимость результатов одного и того же пайплайна!
Многие коллеры используют вероятностные модели
В силу

Проблемы Невоспроизводимость результатов одного и того же пайплайна! Многие коллеры используют вероятностные
вероятностной природы результаты 2 запусков одного и того же пайплайна РАЗЛИЧАЮТСЯ
Проблемы с референсом (даже PrecisionFDA Challenge рекомендует GRCh37)