真核生物基因预测

此用户已注销

发布于 2022-06-28 · 浏览 1026 · IP 广东广东

这个帖子发布于 2 年零 341 天前，其中的信息可能已发生改变或有所发展。

一、同源基因比对

#下载参考序列基因集

https://www.ncbi.nlm.nih.gov/genome/?term=NC_009648

wget -c

https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24

018v2/GCF_000240185.1_ASM24018v2_protein.faa.gz

#建立索引

$ makeblastdb -in GCF_000240185.1_ASM24018v2_protein.faa -dbtype prot

-parse_seqids -out GCF_000240185.1_ASM24018v2_protein.faa

#blastx 比对

blastx -query MGH78578.fasta -out blast.out -db

GCF_000240185.1_ASM24018v2_protein.faa -outfmt 6 -evalue 1e-5 #提取比对区域，生成 bed 文件

awk '{if ($7 < $8) print $1"\t"$7-1"\t"$8;else print $1"\t"$8-1"\t"$7}'

blast.out >gene.bed

#根据比对位点，提取序列

seqkit subseq --bed gene.bed MGH78578.fasta >MGH78578_gene.ffn

复制代码

二、真核生物基因预测

真核生物的开放阅读框不仅含有编码蛋白的外显子，而且还有内含子，并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大，因此真核生物的基因预测远比原核生物困难。但是，在真核生物的开放阅读框中，外显子与内含子之间的连接绝大部分情况下满足 GT-AG 规律：即内含子序列 5' 端的起始两个核苷酸总是 GT，并且其 3'端的最后两个核苷酸总是 AG，即：5'-GT ……AG-3'，这个规律有助于真核生物开放阅读框的识别。因此真核生物的预测基因更加复杂。常用的软件包括 augustus，snap，GlimmerHMM，GENSCAN，genemarks 等工具。

利用 augustus 预测真核生物基因

官网： http://bioinf.uni-greifswald.de/augustus/

#安装 augustus 软件

mamba create -n augustus -y augustus=3.4.0

#激活环境

conda activate augustus

#查看软件自带模型

augustus --species=help

augustus --strand=both --genemodel=partial --singlestrand=false --protein=on

--introns=on --start=on --stop=on --cds=on --codingseq=on

--alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff

--species=arabidopsis ninanjie.fa

复制代码

选项参数：

-strand 预测序列的方向，是正向还是反向，还是正反链都预测，一般基因正反链都有分布，所以选择 both

--genemodel 预测基因的模式，允许部分的基因结构，例如基因含有 N 碱基，或者选择完整结构或者是无内含子的基因

--singlestrand 分别单独预测每个链方向的基因，例如先预测正链方向，然后反链方向，允许基因之间的 overlap。

--hintsfile hints 表示基因的边缘信息，例如上下游的非翻译区，此选项用于输入 gff 格式的基因上下游非编码区信息，辅助基因预测

--AUGUSTUS_CONFIG_PATH=path 软件配置文件目录，没指定从环境变量中获取下面的 --alternatives-from-evidence ， --alternatives-from-sampling ， --sample ，

--minexonintronprob，--minmeanexonintronprob，--maxtracks 等，这些选项都是关于基因可变剪切的选项，关于此选项的具体含义，可以查看 README 文件的第四部分介绍

--proteinprofile 读入一个氨基酸序列文件，作为训练集，关于此选项的具体含义，可以查看 README 文件的第七部分

--predictionStart=A, --predictionEnd=B A 和 B 表示预测的优先级，优先基因结构头部还是尾部

--gff3 是否输出 gff 格式结果文件

--UTR 是否预测非翻译的 UTR 区域，此选项目前只对人基因组，新秀丽线虫，弓形体等起作用

--outfile 输出文件名

--noprediction 如果输入的序列是 genebank 格式进行基因预测，并将预测结果和genebank 的结果进行比较后得出一个精确性的统计结果。由于 genebank 格式文件中有些 sequences 没有 cds 的注释结果，因此可以使用该参数进行检测，从而得到没有 cds 的序列号，在人为去去除这些没有 cds 注释的序列，再去进行预测准确性的评估。

--paramlist 输出全部参数列表

最后编辑于 2022-10-09 · 浏览 1026

回复收藏点赞

真核生物基因预测

全部讨论（0）