dxy logo
首页丁香园病例库全部版块
搜索
登录

真核生物基因预测

发布于 2022-06-28 · 浏览 1026 · IP 广东广东
这个帖子发布于 2 年零 341 天前,其中的信息可能已发生改变或有所发展。

一、同源基因比对

#下载参考序列基因集

https://www.ncbi.nlm.nih.gov/genome/?term=NC_009648

wget -c

https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24

018v2/GCF_000240185.1_ASM24018v2_protein.faa.gz

#建立索引

$ makeblastdb -in GCF_000240185.1_ASM24018v2_protein.faa -dbtype prot

-parse_seqids -out GCF_000240185.1_ASM24018v2_protein.faa

#blastx 比对

blastx -query MGH78578.fasta -out blast.out -db

GCF_000240185.1_ASM24018v2_protein.faa -outfmt 6 -evalue 1e-5 #提取比对区域,生成 bed 文件

awk '{if ($7 < $8) print $1"\t"$7-1"\t"$8;else print $1"\t"$8-1"\t"$7}'

blast.out >gene.bed

#根据比对位点,提取序列

seqkit subseq --bed gene.bed MGH78578.fasta >MGH78578_gene.ffn

复制代码



二、真核生物基因预测

    真核生物的开放阅读框不仅含有编码蛋白的外显子,而且还有内含子,并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大,因此真核生物的基因预测远比原核生物困难。但是,在真核生物的开放阅读框中,外显子与内含子之间的连接绝大部分情况下满足 GT-AG 规律:即内含子序列 5' 端的起始两个核苷酸总是 GT,并且其 3'端的最后两个核苷酸总是 AG,即:5'-GT ……AG-3',这个规律有助于真核生物开放阅读框的识别。因此真核生物的预测基因更加复杂。常用的软件包括 augustus,snap,GlimmerHMM,GENSCAN,genemarks 等工具。


利用 augustus 预测真核生物基因

    官网: http://bioinf.uni-greifswald.de/augustus/


#安装 augustus 软件

mamba create -n augustus -y augustus=3.4.0

#激活环境

conda activate augustus

#查看软件自带模型

augustus --species=help

augustus --strand=both --genemodel=partial --singlestrand=false --protein=on

--introns=on --start=on --stop=on --cds=on --codingseq=on

--alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff

--species=arabidopsis ninanjie.fa

复制代码

选项参数:

    -strand 预测序列的方向,是正向还是反向,还是正反链都预测,一般基因正反链都有分布,所以选择 both

    --genemodel 预测基因的模式,允许部分的基因结构,例如基因含有 N 碱基,或者选择完整结构或者是无内含子的基因

    --singlestrand 分别单独预测每个链方向的基因,例如先预测正链方向,然后反链方向,允许基因之间的 overlap。

    --hintsfile hints 表示基因的边缘信息,例如上下游的非翻译区,此选项用于输入 gff 格式的基因上下游非编码区信息,辅助基因预测

    --AUGUSTUS_CONFIG_PATH=path 软件配置文件目录,没指定从环境变量中获取下面的 --alternatives-from-evidence , --alternatives-from-sampling , --sample ,

    --minexonintronprob,--minmeanexonintronprob,--maxtracks 等,这些选项都是关于基因可变剪切的选项,关于此选项的具体含义,可以查看 README 文件的第四部分介绍

    --proteinprofile 读入一个氨基酸序列文件,作为训练集,关于此选项的具体含义,可以查看 README 文件的第七部分

    --predictionStart=A, --predictionEnd=B A 和 B 表示预测的优先级,优先基因结构头部还是尾部

    --gff3 是否输出 gff 格式结果文件

    --UTR 是否预测非翻译的 UTR 区域,此选项目前只对人基因组,新秀丽线虫,弓形体等起作用

    --outfile 输出文件名

    --noprediction 如果输入的序列是 genebank 格式进行基因预测,并将预测结果和genebank 的结果进行比较后 得出一个精确性的统计结果。 由于 genebank 格式文件中有些 sequences 没有 cds 的注释结果,因此可以使用该参数进行检测,从而得到没有 cds 的序列号,在人为去去除这些没有 cds 注释的序列,再去进行预测准确性的评估。

    --paramlist 输出全部参数列表

最后编辑于 2022-10-09 · 浏览 1026

回复收藏点赞

全部讨论0

默认最新
avatar
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部