外显子测序-SNP检测与注释
#zhangj
#20190114
SNP的检测主要使用GATK软件工具包实现。主要检测过程:
(1) 对于BWA比对得到的结果,使用Picard的Mark Duplicate工具去除重复,屏蔽PCR-duplication的影响。
(2) 使用GATK进行InDel Realignment,即对存在插入缺失比对结果附近的位点进行局部重新比对,校正由于插入缺失引起的比对结果错误。
(3) 使用GATK进行碱基质量值再校准(Base Recalibration),对碱基的质量值进行校正。
(4) 使用GATK进行变异检测(variant calling),主要包括SNP和InDel。
(5) 对SNP进行严格过滤:snp cluster过滤 (5bp内如果有2个snp则过滤掉),Indel附近SNP过滤(indel附近5bp内的SNP过滤掉);和相邻INDEL过滤(两个indel距离小于10bp过滤掉)
具体流程可参考GATK官方网站的BestPractice:https://www.broadinstitute.org/gatk/guide/best-practices.php
突变检测完成后,用ANNOVAR进行注释,ANNOVAR是一款优秀的变异(SNV、Small InDel)注释软件,广泛应用于对人变异结果的注释,支持大多UCSC上现有的数据库,以及用户自定义的数据库。根据变异位点在参考基因组上的位置以及参考基因组上的基因位置信息,可以得到变异位点在基因组发生的区域(基因间区、基因区或UTR区等),以及变异产生的影响(同义非同义突变等)。
软件使用vcf格式文件进行输入,具体说明可参见ANNOVAR的说明文档:http://annovar.openbioinformatics.org/en/latest/
















































