dxy logo
首页丁香园病例库全部版块
搜索
登录

植物叶绿体基因组|解析苦木的叶绿体基因组:结构、变异性及进化关系

发布于 05-08 · 浏览 25 · IP 湖北湖北
img

解析苦木(Picrasma quassioides)的叶绿体基因组:结构、变异性及进化关系

Decoding the Chloroplast Genome of Bitterwood (Picrasma quassioides): Structure, Variability, and Evolutionary Relationships

时间:2025 杂志:Ecology and Evolution 影响因子:2.3 分区:2/2区

摘要

苦木(Picrasma quassioides)是亚洲传统医学中具有重要药用价值的植物。为了解其遗传结构以及在苦木科内的进化关系,本研究对苦木的叶绿体基因组进行了测序和分析。高通量测序结果显示,苦木叶绿体基因组为一个长度为 160,013 bp 的环状分子,具有典型的四分体结构,共编码 132 个基因,包括 87 个蛋白质编码基因、37 个转运 RNA(tRNA)基因和 8 个核糖体 RNA(rRNA)基因。通过与其他苦木科植物的比较分析,发现了单拷贝区和重复区核苷酸多样性的差异模式,同时对反向重复(IR)边界的研究揭示了其动态的进化过程。对 101 个简单序列重复(SSR)位点和 48 个重复序列的分析,为基因组组织研究提供了见解,并筛选出潜在的物种鉴定分子标记。对 78 个蛋白质编码基因的选择压力分析表明,净化选择占主导地位(平均Ka/ Ks比值为 0.23),但部分基因存在正选择的证据。基于 77 个蛋白质编码序列的系统发育重建,证实了苦木科的单系性,并揭示了其与芸香科的紧密进化关系。这些发现不仅推进了我们对苦木科叶绿体基因组进化的理解,还为这种珍贵药用植物的鉴定和育种提供了分子工具。综合的基因组特征分析,为研究苦木药用特性的遗传基础和保护策略提供了基础。

材料与方法

2.1 植物材料、DNA 提取与测序

从中国广西壮族自治区喀斯特地貌的成熟苦木个体(n = 5)上采集新鲜叶片(23°06′N,107°03′E;海拔 450 米)。由于研究未涉及濒危或保护物种,且采样地点不在保护区内,因此无需特殊许可。标本(HZ2022 - 05)由朱灿生博士鉴定,并保存于广西林业科学研究院植物标本馆。采用改良的 CTAB 法,从硅胶干燥的叶片中提取基因组 DNA,并加入聚乙烯吡咯烷酮(PVP - 40)以去除多酚(Yang 等人,2014),随后用 RNase A(Thermo Scientific)处理。通过 1% 琼脂糖凝胶电泳(120 V,45 分钟)验证 DNA 完整性,使用 NanoDrop OneC 分光光度计测定纯度(A260/A280 = 1.82 ± 0.03;A260/A230 = 2.15)。

全基因组测序由深圳市惠通生物科技有限公司(中国,深圳)在 Illumina NovaSeq 6000 平台(美国加利福尼亚州圣地亚哥 Illumina 公司)上进行,构建插入片段大小为 350 bp 的 150 bp 双端文库。初始测序产生了 6412 万条原始 reads(总计 9.62 Gb 数据),使用 Trimmomatic v0.33 软件(Bolger 等人,2014)进行质量过滤,参数设置为:SLIDINGWINDOW:4:20,MINLEN:50。经过过滤后,保留了 5964 万条高质量 reads 用于后续分析。

2.2 叶绿体基因组组装与注释

使用 GetOrganelle v1.7.1 软件(Jin 等人,2020),对 5 个个体的叶绿体基因组分别进行独立组装,k - mer 参数采用默认值(k = 21、45、65、85、105)。组装得到的序列长度均为 160,013 bp,使用 MAFFT v7.487 软件(Katoh 和 Standley,2013)进行比对,以评估种内变异,结果发现个体间无核苷酸差异。因此,选取其中一个代表性序列(来自标本 HZ2022 - 05 - 01)进行详细分析。利用 CPGAVAS2 平台(Liu 等人,2012),以臭椿(Ailanthus altissima)叶绿体基因组(GenBank 登录号:NC_037696.1)为参考,进行基因组注释。使用 Geneious Prime v2023.2.1 软件(Kearse 等人,2012)对注释结果进行手动校正。利用 Chloroplot(Zheng 等人,2020)软件,并调整 GC 偏斜度,对注释后的基因组结构进行可视化。完整的叶绿体基因组序列已提交至 GenBank 数据库(登录号:NC_067857.1)。

2.3 相对密码子使用和重复序列分析

使用 CodonW v1.4.2 软件(Sharp 等人,1986)计算 87 个蛋白质编码基因(PCGs)的相对同义密码子使用(RSCU)值。利用 REPuter v3.0 软件(Kurtz,2001)识别四种重复类型,参数设置为:汉明距离 = 3,最小重复长度 = 30 bp,E值≤1e - 5。通过 MISA v2.1 软件(Beier 等人,2017)检测简单序列重复(SSRs),单核苷酸、二核苷酸、三核苷酸的最小重复阈值分别设定为 10、5、4,四核苷酸、五核苷酸和六核苷酸的最小重复阈值均为 3。

2.4 叶绿体基因组比较分析

利用 IRscope 软件(Amiryousefi 等人,2018),对 7 种苦木科植物(苦木(NC_067857.1)、长叶宽果苦木(Eurycoma longifolia,MH751519.1)、臭椿(NC_037696.1)、佛罗里达莱氏树(Leitneria floridana,NC_030482.1)、变色苦木(Simarouba versicolor,NC_088060.1)、苦树(Simarouba amara,NC_085162.1)和鸦胆子(Brucea javanica,NC_063730.1))的 IR 区域动态变化进行分析。使用 DnaSP v6 软件(Rozas 等人,2017)评估核苷酸多样性(π),采用 600 bp 滑动窗口,步长为 200 bp,以评估叶绿体基因组的变异性。

2.5 选择压力分析

使用 KaKs_calculator v3.0 软件(Zhang,2022),对 7 种苦木科植物共有的蛋白质编码基因进行选择压力分析。通过两两比较计算同义替换率(Ks)和非同义替换率(Ka)。判断标准遵循常规阈值:Ka/Ks > 1 表示正选择,Ka/Ks = 1 表示中性选择,Ka/Ks < 1 表示净化选择。

2.6 系统发育分析

为确定苦木在无患子目(Sapindales)中的系统发育位置,我们分析了 41 个完整的叶绿体基因组(包括 7 种苦木科植物),并以人参(Panax ginseng)和三七(Panax notoginseng)(五加科)作为外类群。使用 MAFFT v7.487 软件(Katoh 和 Standley,2013)对 77 个共享的蛋白质编码基因进行比对。利用 Gblocks v0.91b 软件(Talavera 和 Castresana,2007)去除比对效果不佳的区域。在 IQ - TREE v1.6.12 软件(Minh 等人,2020)中,采用最大似然法进行系统发育重建,使用 ModelFinder(Kalyaanamoorthy 等人,2017)选择的 GTR + F + R3 替代模型。通过 5000 次超快自展检验评估树的稳健性,最终的系统发育树使用 Chiplot 在线工具( https://www.chiplot.online/ )进行可视化。

结果

3.1 苦木叶绿体基因组的结构特征

图 1a 展示了苦木的形态,包括其叶片和果实。苦木完整的叶绿体基因组组装后,被确定为一个环形 DNA 分子,总长度为 160,013 bp(图 1b)。它具有被子植物叶绿体基因组典型的四分体结构,由一个大单拷贝区(LSC)(87,129 bp,占 54.45%)、一个小单拷贝区(SSC)(18,072 bp,占 11.29%)和两个反向重复区(IR)(每个 27,406 bp,共占 34.26%)组成。

img
img

图 1 苦木的形态和叶绿体基因组图谱(a)苦木叶片和果实的照片(b)苦木叶绿体基因组的环形图谱。最外层的圆圈展示了基因图谱,基因根据其功能类别进行颜色编码。内层圆圈描绘了基因组区域:大单拷贝区(LSC)、小单拷贝区(SSC)以及两个反向重复区(IRA 和 IRB)。灰色的内层圆圈表示整个基因组的 GC 含量。基因组的总大小和 GC 含量显示在图谱的中心位置。

对不同区域核苷酸组成的分析表明,基因组存在显著的结构异质性(表 1)。总体 GC 含量为 37.97%,但基因组内部存在较大差异。具体而言,IR 区域的 GC 含量最高(42.67%),这主要是由于 rRNA 基因簇的富集。相比之下,SSC 区域的 GC 含量最低(32.41%)。在蛋白质编码序列(CDS)中,GC 含量在密码子的不同位置呈现分层现象。第一个密码子位置的 GC 含量最高(45.76%),而第三个位置的 GC 含量最低(31.17%)。这种模式与在翻译限制较少的位点上,选择偏好富含 AT 的同义密码子的压力一致。

表 1 苦木叶绿体基因组不同区域的核苷酸组成

img

基因组注释共鉴定出 132 个功能基因,包括 87 个蛋白质编码基因、37 个转运 RNA(tRNA)基因和 8 个核糖体 RNA(rRNA)基因(表 2)。进一步的基因结构分析揭示了复杂的内含子模式。16 个基因含有单个内含子,包括ndhA、ndhB、petB、petD、atpF、rpl16、rpl2、rps12、rps16、rpoC1、trnA - UGC、trnG - UCC、trnI - GAU、trnL - UAA、trnK - UUU和trnV - UAC。两个基因(clpP和ycf3)含有两个内含子。其余基因则完全没有内含子序列,这表明叶绿体基因在剪接需求和功能限制方面存在系统发育差异。

表 2 苦木叶绿体基因组的基因组成和组织

img

注:Gene*:含有一个内含子的基因;Gene**:含有两个内含子的基因;Gene (2):多拷贝基因的拷贝数。

3.2 重复元件和简单序列重复分析

对苦木叶绿体基因组的分析显示,存在 101 个简单序列重复(SSRs),这些 SSR 具有不同的组成和长度特征(图 2a)。单核苷酸重复,主要是 poly - A/T 重复,是最丰富的 SSR 类型(占 72.28%,73/101),重复单元长度在 10 - 16 之间。二核苷酸 SSR 占 10.89%(11/101),主要由 AT/TA 基序组成(9 个位点),重复单元数为 5 - 7。三核苷酸至六核苷酸重复占 SSR 总数的 16.83%(17/101),重复单元数为 3 - 5。富含 A/T 的 SSR 的优势与基因组整体的 AT 偏好(62.03%)相符,表明它们可用作群体遗传学和物种鉴定的分子标记,对于保护这种具有重要药用价值的物种尤为重要。

综合重复序列分析共鉴定出 47 个不同的重复元件,分为四种类型:正向重复(F)、反向重复(R)、互补重复(C)和回文重复(P)(图 2b)。这些重复序列大多长度在 30 - 60 个碱基对之间。回文重复是最常见的类型,出现了 23 次。正向重复次之,出现了 19 次。反向重复和互补重复较少见,长度通常在 30 - 32 个碱基对之间。

img

图 2 苦木叶绿体基因组中重复元件的分布和特征:(a)按重复类型和重复单元大小划分的简单序列重复(SSRs)频率分布,(b)按重复类型分类的长重复序列定量分析(C:互补重复;F:正向重复;P:回文重复;R:反向重复)及长度分布。

3.3 蛋白质编码基因的密码子使用偏好模式

密码子使用分析表明,苦木叶绿体基因组存在显著的非随机偏好,相对同义密码子使用(RSCU)值可证明这一点(图 3)。在多个氨基酸的密码子使用上观察到明显偏好。例如,精氨酸密码子 AGA 和 CGU 的使用频率显著高于其同义密码子 AGG 和 CGG(RSCU 值分别为 1.77 和 1.19,而 AGG 和 CGG 的 RSCU 值分别为 0.67 和 0.52)。甘氨酸也有类似模式,GGA 的 RSCU 值(1.6)显著高于 GGC(RSCU 值为 0.4)。同样,亮氨酸密码子 UUA 和 CUC 的使用频率较高(RSCU 值分别为 1.79 和 1.23),而 CUG 的使用频率较低(RSCU 值为 0.44)。在终止密码子中,UAA 是主要使用的终止密码子。这些密码子使用模式的系统变化表明,特定的选择压力在塑造叶绿体基因组的蛋白质编码区域。这些偏好可能反映了与 tRNA 可用性的共同进化,提高了对光合作用和细胞器功能至关重要的叶绿体基因的翻译效率,进而间接支持植物的生理过程(Parvathy 等人,2022)。

img

图 3 苦木叶绿体基因组的密码子使用偏好分析。图中展示了每个密码子的相对同义密码子使用(RSCU)值,该值表示在同义密码子使用均等假设下,观察到的密码子使用频率与预期频率的比值。RSCU 值大于 1 表明该密码子具有优先使用性,而小于 1 的值则表示其使用频率低于基于同义密码子频率均等的预期值。

3.4 反向重复(IR)区域边界的比较分析

对 7 种苦木科植物叶绿体基因组的反向重复(IR)连接边界进行比较研究,发现其具有保守的进化模式,但也存在物种特异性的结构修饰(图 4)。完整的叶绿体基因组大小变化有限(佛罗里达莱氏树为 158,736 bp,臭椿为 160,815 bp),尽管边界位置有所变化,但仍保持保守的四分体结构。JLB 连接点(LSC/IRb 边界)在种间差异显著,主要位于 rpl22 编码区域内,但向 IRb 区域的延伸长度不同(臭椿为 5 bp,长叶宽果苦木为 255 bp)。值得注意的是,鸦胆子的 JLB 位置与其他物种不同,位于 rps3 基因内,rpl22 位于边界上游 89 bp 处。

在 JSB 连接点(SSC/IRb 边界),所有类群均与假基因化的 ycf1 序列相交,尽管 SSC 区域的插入深度存在一定差异(6 - 55 bp),但仍呈现出保守模式。相比之下,JSA 连接点(SSC/IRa 边界)的可塑性更强,ycf1 基因向 IRa 区域的延伸长度在 1168 - 1332 bp 之间。JLA 连接点(IRa/LSC 边界)呈现出三种结构构型:第一类物种(苦木、长叶宽果苦木、臭椿)将边界定位于 rps19 和 trnH 之间;第二类物种的连接点位于 rpl22 基因内,且 LSC 区域有不同程度的延伸(0 - 189 bp);而鸦胆子(第三类)的边界独特地位于 rpl22 - trnH 基因间隔区,rpl22 与边界之间保持 89 bp 的距离,这一特征在其他研究物种中未发现。这些边界变化表明,苦木科内 IR 区域的扩张 / 收缩过程受到不同的进化约束。

img

图 4 7 种苦木科植物叶绿体基因组反向重复(IR)边界的结构比较。该图展示了四个关键连接点:LSC/IRb(JLB)、IRb/SSC(JSB)、SSC/IRa(JSA)和 IRa/LSC(JLA)。方框内的数字表示基因末端与边界位置之间的距离(以碱基对为单位)。箭头表示跨越这些边界的基因的相对位置和方向。

3.5 核苷酸多样性模式分析

对 7 种苦木科植物叶绿体基因组的核苷酸多样性进行比较分析,揭示了不同的序列变异模式(图 5)。多序列比对及随后的核苷酸多态性分析表明,序列保守性存在区域异质性,单拷贝区和重复区之间差异明显。

全基因组核苷酸多样性(π)范围为 0 - 0.089,平均值为 0.025。从结构上看,大单拷贝(LSC)区和小单拷贝(SSC)区的序列变异性明显高于更为保守的反向重复(IR)区。鉴定出多个核苷酸多样性较高(π>0.075)的基因组热点区域,包括基因区和基因间隔区。这些热点区域包括 ycf1 基因区域、rpl32 基因区域以及几个基因间隔区(rps16 exon1 - trnQ、rpl32 - trnL、ndhF - rpl32 和 psbZ - trnG)。SSC 区域内的 ycf1 区域尤为突出,显示出多个高序列变异位点。这表明该区域有可能作为苦木科内进化研究和物种鉴别的分子标记。

img

图 5 7 种苦木科植物叶绿体基因组的核苷酸多样性分析。该图展示了核苷酸多样性(π)值,峰值对应特定的基因和基因间隔区域。x 轴表示比对序列的位置,y 轴显示使用滑动窗口法计算得到的核苷酸多样性值。峰值表示高序列变异性区域,而谷值代表保守区域。值得注意的核苷酸多样性值较高的区域已标注。

3.6 苦木科叶绿体基因的选择进化压力分析

对 7 种苦木科植物的选择压力进行比较分析,揭示了叶绿体蛋白质编码基因不同的进化约束模式(图 6)。以苦木叶绿体基因组为参考,对 78 个共享的蛋白质编码基因的非同义替换率(Ka)与同义替换率(Ks)的比值进行了研究。

分析结果显示,所有研究基因的平均 Ka/Ks 比值为 0.23,表明整个叶绿体基因组主要受到纯化选择的影响。这一观察结果表明,大多数叶绿体基因受到强烈的进化约束,以维持其功能的保守性。然而,也发现了一些具有不同进化模式的特定基因。最显著的是,长叶宽果苦木中的 psbJ 基因和佛罗里达莱氏树中的 rpl20 基因的 Ka/Ks 比值超过 1.0,表明这些基因经历了正选择。其余基因的 Ka/Ks 比值始终低于 1.0,证实了纯化选择是苦木科叶绿体基因组中主要的进化驱动力。这种选择压力模式表明,大多数叶绿体基因维持着在物种间高度保守的基本功能,同时允许特定基因偶尔发生适应性进化。

img

图 6 苦木科叶绿体基因选择压力的分布。该图展示了苦木与其他 6 种苦木科植物共享的 78 个蛋白质编码基因的 Ka/Ks 比值。

3.7 系统发育分析与进化关系

基于 41 个物种叶绿体基因组中的 77 个共享蛋白质编码基因,进行了全面的系统发育分析,以阐明无患子目内的进化关系(图 7)。分析包括 39 种无患子目植物和 2 种五加科植物(人参和三七)作为系统发育外类群。所得的最大似然(ML)树显示出清晰的进化关系,所有主要分支的自展支持值均超过 90%,支持力度较强。

系统发育重建结果清晰地显示了无患子目和伞形目之间的目级分化,树形拓扑结构分为两个主要分支和五个不同的子分支。每个子分支都获得了最大的自展支持(100%),表明对恢复的科级关系具有高度的置信度。在此框架内,分析揭示了不同分类水平上的几个重要进化模式。

在科级水平上,苦木被明确归为苦木科分支,与臭椿、鸦胆子、佛罗里达莱氏树、长叶宽果苦木、苦树和变色苦木具有密切的进化关系。此外,分析还揭示了苦木科与芸香科之间尤为密切的进化关系,最大自展值为 100%。这种姐妹群关系比与其他无患子目科(如橄榄科、漆树科和楝科)的关系得到了更强的支持。

img

图 7 基于叶绿体蛋白质编码基因的无患子目分子系统发育树。该最大似然树由 41 个物种的 77 个蛋白质编码序列构建而成,其中包括 39 种无患子目植物和 2 种五加科外类群。节点处的数字表示 5000 次重复的自展支持值。苦木(用红星标记)在无患子目主要谱系中的位置如图所示。

结论

本研究对苦木叶绿体基因组进行了全面分析,揭示了苦木科内既存在保守的结构特征,也存在动态的进化模式。通过识别可变区域和选择压力,我们确定了分子进化的模式,同时证实了苦木科的单系性及其与芸香科的进化关系。这些基因组学见解为物种鉴定和育种计划提供了实用工具,为研究苦木药用特性的遗传基础奠定了基础。本研究不仅推进了我们对叶绿体基因组进化的理解,也有助于开发这种珍贵药用植物的更好的治疗应用。

本文来自:物种分类及进化研究-公众号

最后编辑于 05-08 · 浏览 25

回复收藏点赞

全部讨论0

默认最新
avatar
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部