dxy logo
首页丁香园病例库全部版块
搜索
登录

测序数据下载

发布于 2021-12-22 · 浏览 1431 · IP 广东广东
这个帖子发布于 3 年零 157 天前,其中的信息可能已发生改变或有所发展。

背景

    做生物信息的过程中,除了可以分析自己研究的测序数据,也可以分析公开的测序数据。目前已经累积了大量的测序数据可供下载分析。目前测序数据主要发表在 NCBI,EBI,CNDB,DDBJ 等几大站点。


一、SRA 数据库简介

    SRA(Sequence Read Archive)数据库是 NCBI 用于存储测序的原始数据的数据库,包括 454,Illumina,SOLiD,IonTorren,pacbio,nanopore 等。我们经常会看到文献中给出数据名字为 SRA 然后后面接一些数字。我们根据这个 SRA 的 ID 就可以进行下载了,然后进行数据的分析,重复文献的分析内容。

    链接地址:https://www.ncbi.nlm.nih.gov/sra/

    根据 SRA 数据产生的特点,将 SRA 数据分为四类:

    Studies-- 研究课题,ERP 或 SRP 表示 Studies;

    Experiments-- 实验设计,SRX 表示 Experiments;

    Samples-- 样品信息,SRS 表示 Samples;

    Runs-- 测序结果集,SRR 表示 Runs。

    这四种分类有一个层次关系。首先是 Studies->Experiments->Samples->Runs。这也是一个研究项目正常的逻辑关系。SRA 数据可以使用 NCBI 提供的 sratoolkit 工具来进行处理。


二、利用 sratookit 管理 SRA 数据库

    sra 工具包里面包含了很多工具,可以用来管理和操作 sra 数据库的资源,可以处理多种测序平台的数据。 fastq-dump: 最常用的,将 SRA 数据转换为 fastq 格,也可以直接下载数据 prefetch 下载 sra 数据。

    网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

  1. 下载指定版本
  2. ubuntu
  3. https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz
  4. centos 版本
  5. wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-centos_linux64.tar.gz
  6. tar -zxvf sratoolkit.2.10.8-centos_linux64.tar.gz
  7. 首次运行需要进行配置
  8. vdb-config --interactive



三、下载文献数据

3.1 数据介绍

    下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data

部分。如果存在多样本,则需要得到 PROJECT 号,在 PROJECT 号下面找对应的数据。

    Data bibliography

    1. Raw sequencing data: NCBI BioProject Accession PRJNA422511

    (https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511).

    2. Assemblies: FigShare doi https://doi.org/10.6084/m9.figshare.    7649051 (https://doi.org/10.6084/m9.figshare.7649051).

    3. NCBI GenBank reference sequences:

    a. CFT073: NC_004431.1 (chromosome)

    b. MGH78578: NC_009648.1 (chromosome); NC_009649.

    《Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes》

     



3.2 获取 PRJNA422511 项目数据

    https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511


3.3 下载测序数据

  1. prefetch SRR8482567 -O ./
  2. 2021-09-22T02:46:15 prefetch.2.9.3: 1) Downloading 'SRR8482567'...
  3. 观察该提示是 https 还是 fasp
  4. 2021-09-22T02:46:15 prefetch.2.9.3: Downloading via https...



3.4 下载参考序列:

    Klebsiella pneumoniae MGH78578

    基因组: NC_009648.1

    https://www.ncbi.nlm.nih.gov/nuccore/NC_009648.1/

    质粒: NC_009649.1

    https://www.ncbi.nlm.nih.gov/nuccore/NC_009649

img

最后编辑于 2022-10-09 · 浏览 1431

1 9 点赞

全部讨论0

默认最新
avatar
1
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部