dxy logo
首页丁香园病例库全部版块
搜索
登录

一个初学者的LncRNA分析之路(一)

发布于 2017-03-30 · 浏览 8.4 万 · IP 湖北湖北
这个帖子发布于 8 年零 67 天前,其中的信息可能已发生改变或有所发展。
icon推荐

最近在做LncRNA分析流程,大致分析要点如下:

1,已知转录本的表达定量,差异分析:

    1.1利用RSEM以Ensembl的参考基因组序列及gtf注释文件为参考,计算样品中所有已知RNA的表达;

以小鼠为例 参考基因组序列下载方法如下(shell脚本):

for i in $(seq 1 19) X Y MT;

do echo $i;

wget ftp://ftp.ensembl.org/pub/release-87/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.chromosome.${i}.fa.gz;

## 这里也可以用NCBI的:ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀

## 或者UCSC的:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz

done

gunzip *.gz

for i in $(seq 1 19) X Y MT;

do cat Mus_musculus.GRCm38.dna.chromosome.${i}.fa >> mm10.fasta;

done

rm -fr *.fa

注释文件路径:ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.gtf.gz (推荐Ensembl的,注释较为齐全可同时对编码和非编码RNA进行定量)

    1.2使用RSEM进行定量及差异分析,参考:https://github.com/bli25ucb/RSEM_tutorial#intro 

    1.3分析完成后,根据gtf文件中“gene_type”信息注释表达结果

    1.4 KEGG,GO,GSEA富集分析

2.利用HISAT2进行比对

    2.1 hisat2-build建立索引

    2.2 hisat2比对

3.利用cufflinks进行转录本组装,并筛选候选新转录本

    3.1 cufflinks组装得到每个样品的转录本组装结果transcript.gtf

    3.2 组装结果过滤,过滤参数如下:

         1)FPKM>=0.5

         2)Coverage>3

         3)Length>200

    3.3 利用cuffmerge将所有样品过滤之后的转录本合并:

          ls *transcripts.gtf >mergelist.txt #将过滤后的“transcripts.gtf”输入到merge列表文件中

          cuffmerge -o merged -g Mus_musculus.GRCm38.87.gtf -s mm10.fasta -p 16 mergelist.txt

          #cuffmerge合并每个样本过滤之后转录本的同时与参考序列gtf比较重新构建新转录本

    3.4 筛选候选的novel transcript:

       用perl或者其他脚本语言筛选merge.gtf中class_code为“i,j,u,x,o”的转录本作为候选的新转录本

    3.5 编码能力预测以鉴别novel mRNA和lncRNA:

       分别用CPC,CNCI,PfamScan三个软件来对novel transcript序列做编码能力预测

我们选取主流的三个预测软件官网:

PfamScan:http://pfam.xfam.org/

CPC:http://cpc.cbi.pku.edu.cn/

CNCI:https://github.com/www-bioinfo-org/CNCI

鉴定标准如下:

CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA

    注意:1)cpc和PfamScan(  http://www.dxy.cn/bbs/thread/36426921#36426921  我之前写过用法)需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列

              2)PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。

    预测完成之后选取三个软件的交集转录本作为novel coding和noncoding转录本

4. 用RSEM对novel transcript定量和差异分析

5. 靶基因预测待续。。。


最后编辑于 2017-03-31 · 浏览 8.4 万

135 367 42

全部讨论0

默认最新
avatar
135
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部