• 论坛首页
  • 我的丁香客
  • 找人
    查找好友
  • 更多
    丁香园
    丁香通
    丁香人才
    丁香会议
    丁香搜索
    丁香医生
    丁香无线
    丁香导航
    丁当铺
    文献求助
    医药数据库
    丁香诊所
    来问医生
登录 注册

生物信息

关注今日:2 | 主题:140366
论坛首页  >  生物信息学讨论版   >  NGS & Microarray
  • 发帖
    每发1个新帖
    可以获得0.5个丁当奖励
  • 回帖

分享到:

  • 微信

    微信扫一扫

  • 微博
  • 丁香客
  • 复制网址

高通量(NGS)DNA测序数据的Windows处理

  • 只看楼主
  • 页码直达:
  • 直达末页
楼主 yunxiang
yunxiang
分子生物学实验室
丁香园准中级站友

  • 146
    积分
  • 336
    得票
  • 317
    丁当
  • +1 积分
  • 1楼

在给罕见病患者患者检测突变的过程中,积累了一些高通量测序(二代测序,NGS)DNA测序数据的计算机处理 的经验,在这里交流一下:

当测序公司测了高通量测序NGS,比如千余元的全外显子组测序,几千元的全基因组测序,或者千元的panel测序之后,会将测序结果以fastq或者fq文件的gz压缩包的形式返还给实验人员。解压之后得到fastq或者fq文件,这俩种文件其实是一样的。这个fastq文件的其实就是txt文件这种纯文本文件,当然,如果您要用记事本打开,由于文件太大,还是会卡住甚至死机的。

fastq文件就是DNA碎片序列的随机罗列。要想看明白这个文件,就要对这些序列进行排序。对简单的排序方法就是把人类基因组标准序列文件放在边上,然后把这些碎片逐个往上比对。这就类似把一本未知版本红楼梦撕碎了,然后想拼回来非常困难,那么拿程甲本红楼梦作对照,就能快速拼接回去了,尽管难免会有些许错误。

看到这,大家可能就会想到,拿程甲本红楼梦作对照和拿程乙或者庚辰版本红楼梦作对照,拼接效果会有差异。没错,最好是用与未知版本红楼梦最接近而且经过最新校订版本的红楼梦。所以,用中国人的标准序列,是最好的。当然,为了方便,大多数人选择用标准黑人的较新38版剑桥序列作标准。

看了这么多理论背景,到了操作阶段。先准备一台6g内存以上的windows电脑,都不需要linux。把显示文件扩展名调出来。然后下载38版剑桥标准序列。在这里

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids

用下载软件(尽量别用迅雷)下载以下三个文件

GCA_000001405.15_GRCh38_full_analysis_set.fna.bwa_index.tar.gz

GCA_000001405.15_GRCh38_full_analysis_set.fna.fai

GCA_000001405.15_GRCh38_full_analysis_set.fna.gz

解压缩产生一堆文件之后放在一个根目录上的英文目录里面。建议统一改短名。

然后就是fastq或者fq文件的gz压缩包,解压之后也放在里面,假如名字是abc1和abc2

还有就是程序,选用最最主流的,几乎所有文献都用的,bwa程序(俄罗斯人编译的window版本,见附件)。三个程序文件也放进目录

下面开始操作。首先进入命令提示符

输入 盘名字,比如d:回车

然后cd空格您的那个英文目录回车

进入之后输入bwa mem -t 2 剑桥序列文件名.fna abc1.fq abc2.fq >abc.sam

等待几个小时吧。。。。。运行完了就产生了abc.sam

下一步要把sam 转换成bam

需要samtools程序(windows版本,也在下面有下载)的另6个文件,

解压后取代刚才那三个bwa程序文件!

依次运行

samtools view -bS abc.sam > abc.bam

samtools sort abc.bam abcs

samtools index abcs.bam

大功告成了

得到了比对完成的bam文件,可以用各种可视化软件看了。当然也可以接着用call variant的各种方法找突变啥的,以后再介绍吧。

大家如果运行的时候有碰到问题,欢迎回复交流;下载那三个大文件太慢的话可以回复,实在弄不明白的话,也可找我帮忙分析




  • bwa-0.7.12.rar(1358.9k)

  • samtools-0.1.19.rar(1942.87k)
  • 邀请讨论
  • 不知道邀请谁?试试他们

    换一换
2019-12-27 13:29 来自 Android客户端 浏览 : 30076 回复 : 14
  • 投票 9
  • 收藏 72
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
dachong99 编辑于 2019-12-31 10:23
  • • 一表汇总心电图危急值 | 技能必备
iamorange
iamorange

丁香园荣誉版主

  • 368
    积分
  • 1137
    得票
  • 1404
    丁当
  • 2楼
[Hidden Post:0]

您无权限看这个帖子,您的积分需要大于 0 如何获得积分?
2019-12-27 18:42
  • 投票 1
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 关于调剂你了解多少?
楼主 yunxiang
yunxiang
分子生物学实验室
丁香园准中级站友

  • 146
    积分
  • 336
    得票
  • 317
    丁当
  • 3楼
iamorange

有那么多成熟而又方便的软件放在那里不用,而用“各种可视化软件”肉眼查看原始的比对结果,我觉得有点误导新手


啥成熟?用成熟方法的话,分析我研究的nemo基因百分百会漏掉!

根本就不成熟!

再说你看看文献,起码一大半文献都用bwa,!这是主流!你用所谓成熟方法,有人承认么!

2019-12-27 18:50
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 文献求助
sophiakaki2
sophiakaki2
入门站友

  • 0
    积分
  • 1
    得票
  • 7
    丁当
  • 4楼

marker一下

2019-12-30 16:44
  • 投票 1
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 院外心脏骤停15次,台上再停3次,好在活了过来

关闭提示

需要2个丁当

丁香园旗下网站

  • 丁香园
  • 用药助手
  • 丁香通
  • 文献求助
  • 丁香人才
  • 丁香医生
  • 丁香导航
  • 丁香会议
  • 手机丁香园
  • 医药数据库

关于丁香园

  • 关于我们
  • 丁香园标志
  • 友情链接
  • 联系我们
  • 加盟丁香园
  • 版权声明
  • 资格证书

官方链接

  • 丁香志
  • 丁香园新浪微博
引用回复