microRNA系列 (一)基本知识介绍
大家好,又和大家见面了。从本期开始,我们将为大家详细介绍近年来生物信息的研究热点之一,也是我们公司当前的关注重点——非编码RNA。虽然现在已经发现的非编码RNA种类有很多,但了解最深,也是大家公认最为重要的非编码RNA仍然是microRNA、long noncoding RNA和circular RNA这几类。这期我们就从最早发现的miRNA开始,陆续给大家介绍这方面的知识。
mircoRNA是什么?
虽然microRNA (miRNA) 已经是生物学领域中研究的明星分子,甚至是有些“过气”的明星,但由于miRNA功能的广泛性和重要性,miRNA仍然在生物学研究中占据重要的一席之地,特别是在各种疾病研究中,增加miRNA相关的内容可以极大地提高研究的分量,提升论文档次。因此miRNA相关的分析也成为目前疾病组学及各种动植物组学分析的常规组成。
miRNA是一类存在于真核多细胞生物中的小RNA分子,其发挥功能的成熟体部分序列部分很短,长度通常在24个核苷酸左右,最长不过30个核苷酸。成熟体miRNA的来源通常有两种,一种是从编码miRNA的“基因”转录而来,这些基因首先转录形成数百至数千nt的初级转录本(primary miRNA),随后初级转录本被切割加工为60-80nt左右的次级转录本(precursor miRNA),次级转录本包含一个“茎-环”结构,其环状部分被切割才成为成熟体miRNA,成熟体miRNA与相关的蛋白结合形成调控复合体。另一类miRNA的来源是各种mRNA分子,真核生物mRNA分子的内含子序列会有一部分会被切割加工,最终形成成熟体miRNA分子。 由于miRNA序列与其他RNA(包括mRNA或lncRNA等)存在碱基互补配对而发生相互作用,阻碍mRNA翻译或者降解mRNA,从而调节基因的表达(图1)。

图1.miRNA的生物发生过程
miRNA基因的特征
miRNA基因有几个比较显著的特征,首先 miRNA 基因在染色体中存在单拷贝或多拷贝形式,而成簇存在的 miRNA 之间一般具有较高的相似性。其次,大部分 miRNA 在多个物种中通常保守。最后许多miRNA 的表达与发育阶段和组织相关,只在特定阶段与组织中表达,这一特性给通过实验方法寻找 miRNA 基因带来了一定难度。 为方便管理众多新发现的 miRNA, 研究人员为miRNA的命名制订了一系列规则,除最早发现的两个 miRNA:lin-4和let-7以外,所有miRNA 统一用 miR(大写 R)-后加数字表示。而用mir(小写 r)-后加数字表示 miRNA 基因。高度同源的miRNA 在其后加英文字母区别。多拷贝基因再后面加数字予以区别。
miRNA基因的识别鉴定
在早期关于miRNA的研究中,研究人员多采用传统的定向克隆方法识别鉴定miRNA分子,但这种方法对很多低表达丰度的miRNA常常无法检测;此外,传统的分子克隆方法无法分辨miRNA分子与其他非编码RNA分子,如tRNA及rRNA的降解产物。而目前通过高通量测序方法搜寻miRNA正成为当前研究的常规手段。miRNA测序可以对样本中指定大小的所有miRNA分子进行并行测序,从而获得miRNA的表达量信息,并且可以发现未知miRNA,与传统方法相比,miRNA测序具有显著优势。
miRNA基因的数据库
提到miRNA相关的研究,就不得不提大名鼎鼎的miRBase数据库( http://www.mirbase.org/ ),miRBase是一个关于各物种已发现的miRNA的数据库,最早是由Sanger测序中心负责维护,目前已经转移至曼彻斯特大学。miRBase是关于miRNA基因最权威的数据库,所有重要物种的miRNA基因前体与成熟体序列都会有收录,而且数据可靠性很高,凡是与miRNA相关的研究几乎都会遇到这个数据库。2018年三月miRBase刚刚发布了第22版,里面包含了1982 条前体miRNA以及相应的2694条成熟体miRNA。

图2. miRBase数据库
miRBase在实际使用过程中经常会遇到的一个问题是不同版本的miRNA ID不统一,同样一个miRNA在不同发布版中ID会有变化,特别是miRNA研究早期的命名,成熟体miRNA双链中表达水平较高的miRNA后面不加任何符号,而表达水平较低的miRNA会添加*号,而目前的命名规则统一用“-5p”和“-3p”分别命名,表明分别从miRNA前体的5’端臂和3’端臂加工而来。miRBase本身并没有提供不同版本间miRNA ID比较与转换功能。目前有一个很好用的第三方工具:miRBase Tracker( http://www.mirbasetracker.org/) 可以用来追踪miRNA ID的变迁,以及不同版本间的ID 转换。

图3. miRBase Tracker在线工具
虽然miRBase是目前关于 miRNA使用最广泛的数据库,但它更偏重与人与动物基因组编码的miRNA,而植物基因组编码miRNA覆盖不是太广泛,所以研究植物miRNA可以使用另一个植物miRNA数据库PMRD ( http://bioinformatics.cau.edu.cn/PMRD/ , 这个数据库是中国农业大学实验室负责维护,目前已合并并更新至植物非编码RNA数据库:PNRD)

图4. 植物miRNA数据库PMRD
miRNA靶基因数据库
对于miRNA而言,其中最重要的一个特征是对下游基因的调控,因此 miRNA下游靶基因的识别鉴定也是非常重要的工作。目前也有许多miRNA靶基因的数据库已经发布,包括实验验证及生物信息学方法预测的miRNA靶基因。其中最早建立的miRNA靶基因数据库为TarBase ( http://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=tarbasev8%2Findex/) ,该数据库收录经实验验证过的miRNA的靶基因,包括人、小鼠、果蝇、蠕虫和斑马鱼等不同物种,目前已更新至8.0版。

图5. TarBase 数据库
除TarBase之外,miRTarBase( http://mirtarbase.mbc.nctu.edu.tw/php/index.php )也是一个重要的miRNA靶基因数据库, miRTarBase同样收录实验验证的miRNA靶基因数据,目前数据库已更新至7.0版,其中收录包括人、小鼠、大鼠、斑马鱼在内的数十个物种的数十万miRNA-靶基因作用信息。

图6. miRTarBase 数据库
除通过实验方法获得miRNA调控靶基因信息外,目前应用更为广泛的是通过各种生物信息学方法获取miRNA潜在的靶基因,其中应用比较广泛的 miRNA靶基因预测软件包括TargetScan, PITA, miRanda, RNAhybrid, RNA22等。各软件通常也会有不同物种预测的miRNA靶基因数据库发布,如最常用的TargetScan( http://www.targetscan.org/vert_71/) ,目前已更新至7.1 版,主要收录包括人,小鼠,果蝇,斑马鱼等不同物种在内的miRNA靶基因信息。

图7. TargetScan数据库
除类似TargetScan这种单一软件预测结果数据库之外,目前实际使用更多的是对各种软件预测结果进行综合的数据库,而miRWalk( http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/ )是其中的佼佼者。miRWalk收录了目前最常用的十多种miRNA靶基因预测软件所获得的靶基因预测信息,并且同样收录了实验验证的miRNA靶基因信息,miRWalk 提供不同软件预测结果之间数据的整合功能,如数据取交集,并集等,使用户可以方便地获取感兴趣的信息。此外,miRWalk还提供了包括miRNA靶基因功能预测,参与信号通路富集分析能功能,可以说是miRNA研究的集大成者。目前miRWalk第三版已经发布。

图8. miRWalk数据库