Разбор задания. Часть i

Содержание

Слайд 2

Общая схема решения

поиск SNP

аннотирование SNP

Анализ результатов

В каких позициях референс и наши данные

Общая схема решения поиск SNP аннотирование SNP Анализ результатов В каких позициях
отличаются??

На какие места референсного генома похожи риды в сырых файлах?

Какие гены находятся в этих позициях и как SNP может влиять на них?

Есть ли какие-то очевидные кандидаты??

Слайд 3

Исходные данные

ДНК

Много кусочков днк

Пришивание адаптеров

Чтение ДНК с обоих адаптеров

Исходные данные ДНК Много кусочков днк Пришивание адаптеров Чтение ДНК с обоих адаптеров

Слайд 4

Исходные данные - подготовка

Выбор ридов с X хромосомы

Де-картирование

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

fastq

Исходные данные - подготовка Выбор ридов с X хромосомы Де-картирование @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 fastq

Слайд 5

Инструменты для реализации общего решения можно подобрать совершенно разные!!

UGENE
Galaxy
….

Bwa mem

strelka

openCravat

R

Инструменты для реализации общего решения можно подобрать совершенно разные!! UGENE Galaxy ….

Слайд 6

Картирование (bwa mem)

#!/bin/bash
while read p; do
echo $p
echo "#########################Started mapping#######################"
bwa

Картирование (bwa mem) #!/bin/bash while read p; do echo $p echo "#########################Started
mem -R "@RG\tID:4\tSM:$p\tPL:illumina\tLB:lib1\tPU:unit1" ./Homo_sapiens_assembly38.fasta "$p"_1.fastq "$p"_2.fastq -t 25 > "$p".sam
echo "####################Deleting fastq files###################"
#rm "$p"_1.fastq
#rm "$p"_2.fastq
echo "##################### Converting files to Bam and sort ###################"
/samtools view -Su "$p".sam | samtools sort -@25 - -o "$p".sorted.bam
echo "##############Deleting sam files###############"
rm "$p".sam
echo "#################mark duplicates################"
java -Dpicard.useLegacyParser=false -Xmx16G -jar ../picard.jar MarkDuplicates\
-I "$p".sorted.bam\
-O "$p".MD.bam\
-METRICS_FILE metrics.txt\
-CREATE_INDEX true
echo "#############Deleting sorted.bam################"
rm "$p".sorted.bam
done < samp_list

resist_1
resist_2
resist_3
resist_4
resist_5
resist_6
sensitive_1
sensitive_2
sensitive_3
sensitive_4
sensitive_5
sensitive_6

samp_list

Слайд 7

Результат картирования (SAM/BAM)

https://bioinformatics-core-shared-training.github.io/cruk-summer-school-2017/Day1/Session5-alignedReads.html

Результат картирования (SAM/BAM) https://bioinformatics-core-shared-training.github.io/cruk-summer-school-2017/Day1/Session5-alignedReads.html

Слайд 8

Поиск SNP (strelka)

#!/bin/bash
# configuration
./strelka-2.9.10.centos6_x86_64/bin/configureStrelkaGermlineWorkflow.py \
--bam ./sensitive_1.MD.bam \
--bam ./sensitive_2.MD.bam \
--bam ./sensitive_3.MD.bam \
--bam ./sensitive_4.MD.bam

Поиск SNP (strelka) #!/bin/bash # configuration ./strelka-2.9.10.centos6_x86_64/bin/configureStrelkaGermlineWorkflow.py \ --bam ./sensitive_1.MD.bam \ --bam
\
--bam ./sensitive_5.MD.bam \
--bam ./sensitive_6.MD.bam \
--referenceFasta ./Homo_sapiens_assembly38.fasta \
--runDir ./vcf
# execution on a single local machine with 20 parallel jobs
./vcf/runWorkflow.py -m local -j 20

Слайд 9

Результаты поиска SNP (VCF формат)

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT resist1 resist2 resist3 resist4 resist5 resist6

chrX 19942 . G A 2 PASS SNVHPOL=2;MQ=50 GT:GQ:GQX:DP:DPF:AD:ADF:ADR:SB:FT:PL

0/1:29:4:4:0:3,1:3,1:0,0:0.0:PASS:32,0,75

6 колонок (по одной для каждого образца)

Результаты поиска SNP (VCF формат) #CHROM POS ID REF ALT QUAL FILTER