• 论坛首页
  • 我的丁香客
  • 找人
    查找好友
  • 更多
    丁香园
    丁香通
    丁香人才
    丁香会议
    丁香搜索
    丁香医生
    丁香无线
    丁香导航
    丁当铺
    文献求助
    医药数据库
    丁香诊所
    来问医生
登录 注册

生物信息

关注今日:6 | 主题:140903
论坛首页  >  生物信息学讨论版   >  精准医学版
  • 发帖
    每发1个新帖
    可以获得0.5个丁当奖励
  • 回帖

分享到:

  • 微信

    微信扫一扫

  • 微博
  • 丁香客
  • 复制网址

全外显子分析(WES)的一般步骤-8 SNP calling篇

  • 查看全部
  • 页码直达:
  • 直达末页
楼主 zjubell
zjubell
丁香园准中级站友

  • 174
    积分
  • 480
    得票
  • 561
    丁当
  • +1 积分
  • 1楼
这个帖子发布于3年零76天前,其中的信息可能已发生改变或有所发展。

这步,才正式将比对结果,call出SNP,给出一个非常通用的,大家都熟悉的VCF文件 (variant calling files)

SNP, indel是分开call的,同时会对质量进行过滤。从raw data生成PASS的data

#Generate snps raw vcf file

 


#Using GATK UnifiedGenotyper to generate snps.raw.vcf

 mkdir $PWDS/variants

 

 java -Xmx${heap}m  \

    -jar $gatk \

    -R $REF \

    -T UnifiedGenotyper \

    --dbsnp $DBSNP \

    -I $PWDS/${subjectID}.realigned.recal.bam \

    --out $PWDS/variants/${subjectID}.snps.raw.vcf \

    -stand_call_conf 30.0 \

    -stand_emit_conf 10.0 \

    -out_mode EMIT_VARIANTS_ONLY \

    -l INFO \

    -A DepthOfCoverage \

    -A HaplotypeScore \

    -A InbreedingCoeff \

    -glm SNP  \

    -nt 1  \

    -L $ExonFile

 

 rm -f $PWDS/variants/*.idx

 

 

#Generate indels raw vcf file


Using GATK UnifiedGenotyper to generate indels.raw.vcf

 java -Xmx${heap}m  \

    -jar $gatk \

    -R $REF \

    -T UnifiedGenotyper \

    --dbsnp $DBSNP \

    -I $PWDS/${subjectID}.realigned.recal.bam \

    --out $PWDS/variants/${subjectID}.indels.raw.vcf \

    -stand_call_conf 30.0 \

    -stand_emit_conf 10.0 \

    -out_mode EMIT_VARIANTS_ONLY \

    -l INFO \

    -A DepthOfCoverage \

    -A HaplotypeScore \

    -A InbreedingCoeff \

    -glm INDEL  \

    -nt 1  \

    -L $ExonFile

 

 rm -f $PWDS/variants/*.idx

 

 

#Variant filtration generate indels and indels.PASS vcf files


Using GATK VariantFiltration to generate snps.vcf and snps.PASS.vcf files

 java -Xmx${heap}m  \

  -jar $gatk \

  -l INFO -T VariantFiltration \

  -R $REF \

  -o $PWDS/variants/${subjectID}.indels.vcf \

  -V:VCF $PWDS/variants/${subjectID}.indels.raw.vcf \

  --filterExpression "QD < 2.0" \

  --filterName "QDFilter" \

  --filterExpression "ReadPosRankSum < -20.0" \

  --filterName "ReadPosFilter" \

  --filterExpression "FS > 200.0" \

  --filterName "FSFilter" \

  --filterExpression "MQ0 >= 4 && ((MQ0 / (1.0 * DP)) > 0.1)" \

  --filterName "HARD_TO_VALIDATE" \

  --filterExpression "QUAL < 30.0 || DP < 6 || DP > 5000 || HRun > 5" \

  --filterName "QualFilter"

 ##这些参数都是可以改的,比如quanlity默认是大于30以上保留,测序深度是6X,等待,根据自己实际要求修改。

 mline2=`grep -n "#CHROM" $PWDS/variants/${subjectID}.indels.vcf | cut -d':' -f 1`

 head -n $mline2 $PWDS/variants/${subjectID}.indels.vcf > $PWDS/variants/headindels.vcf

 cat $PWDS/variants/${subjectID}.indels.vcf   \

 | grep PASS | cat $PWDS/variants/headindels.vcf - >   \

 $PWDS/variants/${subjectID}.indels.PASS.vcf

 

 rm -f $PWDS/variants/*.idx

 rm -f $PWDS/variants/headindels.vcf

 

 

#Variant filtration generate snps and snps.PASS vcf files


Using GATK VariantFiltration to generate indels.vcf and indels.PASS.vcf

 java -Xmx${heap}m  \

  -jar $gatk \

  -l OFF -T VariantFiltration \

  -R $REF \

  -o $PWDS/variants/${subjectID}.snps.vcf \

  --variant $PWDS/variants/${subjectID}.snps.raw.vcf \

  --mask $PWDS/variants/${subjectID}.indels.PASS.vcf \

  --maskName InDel \

  --clusterSize 3 \

  --clusterWindowSize 10 \

  --filterExpression "QD < 2.0" \

  --filterName "QDFilter" \

  --filterExpression "MQ < 40.0" \

  --filterName "MQFilter" \

  --filterExpression "FS > 60.0" \

  --filterName "FSFilter" \

  --filterExpression "HaplotypeScore > 13.0" \

  --filterName "HaplotypeScoreFilter" \

  --filterExpression "MQRankSum < -12.5" \

  --filterName "MQRankSumFilter" \

  --filterExpression "ReadPosRankSum < -8.0" \

  --filterName "ReadPosRankSumFilter" \

  --filterExpression "QUAL < 30.0 || DP < 6 || DP > 5000 || HRun > 5" \

  --filterName "StandardFilters" \

  --filterExpression "MQ0 >= 4 && ((MQ0 / (1.0 * DP)) > 0.1)" \

  --filterName "HARD_TO_VALIDATE"

 

 

 rm -f $PWDS/variants/*.idx

 

  mline=`grep -n "#CHROM" $PWDS/variants/${subjectID}.snps.vcf | cut -d':' -f 1`

 head -n $mline $PWDS/variants/${subjectID}.snps.vcf > $PWDS/variants/head.vcf

 cat $PWDS/variants/${subjectID}.snps.vcf | grep PASS   \

  | cat $PWDS/variants/head.vcf - >    \

  $PWDS/variants/${subjectID}.snps.PASS.vcf

 

 

 rm -f $PWDS/variants/head.vcf

 

 

#evaluating snps


Using GATK snps eval to generate snps.PASS.vcf.eval file

 java -Xmx${heap}m  \

   -jar $gatk \

   -T VariantEval \

   --dbsnp $DBSNP \

   -R $REF \

   -eval $PWDS/variants/${subjectID}.snps.PASS.vcf \

   -o $PWDS/variants/${subjectID}.snps.PASS.vcf.eval

 

 

 rm -f $PWDS/variants/*.idx

 


  • 邀请讨论
  • 不知道邀请谁?试试他们

    换一换
2018-01-27 21:46 浏览 : 4933 回复 : 0
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • II型呼衰SaO2 75%,吸氧只能3L以下?

关闭提示

需要2个丁当

丁香园旗下网站

  • 丁香园
  • 用药助手
  • 丁香通
  • 文献求助
  • 丁香人才
  • 丁香医生
  • 丁香导航
  • 丁香会议
  • 手机丁香园
  • 医药数据库

关于丁香园

  • 关于我们
  • 丁香园标志
  • 友情链接
  • 联系我们
  • 加盟丁香园
  • 版权声明
  • 资格证书

官方链接

  • 丁香志
  • 丁香园新浪微博
引用回复