DNASTAR软件应用之ORF简单介绍(两分钟StepByStep学会一个生物学软件系列) )
http://www.dxy.cn/bbs/post/view?bid=10&id=1354147&sty=1&tpg=1&age=-1
开放阅读架,即open reading frame(ORF),是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多态链,其间不存在使翻译中断的终止密码子。通常是从DNA(不是RNA)序列推论出开放阅读码的存在。
对于细菌等原核生物的ORF的识别,目前理论手段已经发展的比较成熟,而且特异性(specificity)和灵敏度(sensitivity)都相对较高。其中使用最为广泛的软件是由TIGR中心开发的Glimmer,这个名称是“基因定位和内插马尔可夫模型”(Gene Locator and Interpolated Markov Modeler)的缩写,它是专门用于在微生物基因组中定位基因的软件,对于细菌(bacteria)和古细菌(archaea)特别有效。Glimmer是对学术研究机构免费的,详细的信息和如何获取可以从TIGR的网站上的相关网页中了解到( http://www.tigr.org/software/glimmer/ )。
另外,对于真核生物的ORF预测,虽然总体的效果不如原核生物,但是目前也已经开发出了不少现成的软件工具。比较常用的是由斯坦福大学开发(现在由麻省理工学院生物系的Burge实验室维护)的Genscan软件,它是一个“普适”的基因预测程序,它可以用于分析许多物种的基因组序列,包括人、脊椎动物、无脊椎动物和植物等。它主要是基于给定物种的基因结构和组成特性的一个统计模型来预测出最有可能的基因,并可以给出文本和图形(PostScript格式)两种结果形式。麻省理工学院提供了使用Genscan的WEB服务器( http://genes.mit.edu/GENSCAN.html )和Email服务器( http://genes.mit.edu/GENSCANM.html )。同时Genesan对学术机构也是可以免费获得的,其主页上提供了针对多种Unix/Linux系统的版本,而且本地使用Genscan也很简单.
此外,提供在线分析ORP的数据库还有ncbi和CDS(EBI,即欧洲生物信息协会)等。CDS 是指编码区,是NCBI数据库中指示读者如何将两个序列连接在一起,或如何根据核苷酸序列以及基因编码得到氨基酸序列。针对的是编码区的序列。
二者都是基因组注释的分析方法,目的在于确定基因组序列的功能。但ORF 和 CDS 搜索软件的分析原理是不一样的。Ncbi中的ORF的鉴定除了指定物种的遗传密码和限定最短ORF长度(默认是100)外,主要是根据起始密码和终止密码来进行搜索。而CDS(coding sequences)分析软件除了考虑上述因素,还要考虑:
a. 编码序列上、下游的 grammatical structure (语法结构)。如原核生物的编码序列上游通常应该有启动子。
b. 编码序列以及非编码序列中使用的 nucleottide words (核苷酸语汇),例如 hexamer 语汇的差异。
(以上引用自顶向园内的一些贴子,不是我的原创:))
下面介绍软件上的分析:)
最后编辑于 2004-07-22 · 浏览 5711