dxy logo
首页丁香园病例库全部版块
搜索
登录

植物叶绿体基因组|中国特有的四个变豆菜属(伞形科)的完整叶绿体基因组:基因组结构

发布于 2024-12-31 · 浏览 277 · IP 北京北京
img

植物叶绿体基因组 中国特有的四个变豆菜属(伞形科)的完整叶绿体基因组:基因组结构、比较分析和系统发育关系

Complete chloroplast of four Sanicula taxa (Apiaceae) endemic to China: lights into genome structure, comparative analysis, and phylogenetic relationships

时间:2023杂志:BMC Plant Biology 影响因子:4.3 分区:1/2区

背景导读

变豆菜属(Sanicula)由约45个分类群组成,广泛分布于东亚至北美,是伞形科(Apiaceae)中一个分类困难且具有较高药用价值的属。由于主要形态特征的多样性,该属的系统分类长期以来一直存在争议。中国是变豆菜属最重要的分布中心之一,约有18种2变种。目前,叶绿体基因组通常被认为是保守的,在进化关系研究中发挥着重要作用。为了研究中国变豆菜属的质体进化和系统发育关系,本研究综合分析了13个中国变豆菜属物种叶绿体的结构特征,并重建了它们的系统发育关系。这些结果可以为该属的系统发育和进化研究提供重要的数据,为今后的研究提供参考。

研究目的

1、确定13个中国变豆菜属物种的质体全序列,包括4个新测序的样本;

2、比较现有中国变豆菜属物种cp基因组的全球结构模式;

3、检测13个变豆菜属物种cp基因组中SSR和重复序列的变异;

4、重建中国变豆菜属物种的系统发育,提高对中国变豆菜属类群关系和进化的认识。

研究对象及研究方法

1、研究对象

从中国的野外收集到8种和1变种的变豆菜属物种和1种刺芹属(Eryngium)物种新鲜叶片,二氧化硅干燥保存,抽提DNA测序。此外,从NCBI下载变豆菜属四个和刺芹属一个完整叶绿体基因组。

2、研究方法

通过GetOrganelle组装叶绿体基因组,Bandage进行校正,PGA软件进行叶绿体基因组注释,OGDraw绘制圈图。同时开展基因组比较、密码子使用分析简单序列重复分析,以及进化树分析。

主要结果

1、中国变豆菜属四个类群和刺芹属一个种的叶绿体基因组结构

所有五个新的变豆菜属cp基因组(表1)与伞形科中的其他属或变豆菜属的其他物种相似。变豆菜属中四个新的cp基因组的大小从S. orthacantha var. brevispina中的155396 bp到S. caerulescens的155757 bp不等,表现出典型的四分体结构,具有两个单拷贝区(LSC和SSC),由一对反向重复序列(IRa和IRb)分隔(图1)。大单拷贝(LSC)的长度范围为85818 bp(S. orthacantha var. brevispina)至86209 bp(S. caerulescens)(表1)。总GC含量在38.16%-38.21%之间。

img

表1 本研究中叶绿体基因组特征,包括四个新的变豆菜属叶绿体基因组和一个新的刺芹叶绿体基因组,显示了本研究中报道的新的叶绿体基因组

img

图1 四个新测序的变豆菜属叶绿体基因组图谱。

所有四个新测序的变豆菜属cp基因组都编码了103个独特基因,包括79个蛋白质编码基因(PCG)、20个tRNA基因和4个rRNA基因,其中23个是重复的,总共126个基因(表1)。13个基因含有一个(atpF、ndhA、ndhB、petB、rpl16、rpl2、rpoC1、rps16、trnA UGC、trnI GAU)或两个(clpP1、rps12、ycf3)内含子,其中两个是trnA基因(表2,图1)。cp基因组包含55.92%-56.07%的编码区和43.93%-44.08%的非编码区,包括基因间间隔区和内含子(表2)。刺芹cp的长度为155270bp,由85874bp的LSC区、17074bp的SSC区和26161bp的一对反向重复区组成(图2)。GC总含量为38.13%。它包含127个基因,包括86个PCG、33个tRNA基因和8个rRNA基因(表1),并分为四类,包括光合作用、自我复制、其他基因和功能未知基因表2)。

img

表2 四个新测序的变豆菜属和一个刺芹样品叶绿体基因组中的注释基因列表

img

图2 一个新测序的刺芹叶绿体基因组图谱。

2、IR区的扩展、收缩和种间比较

本研究分析和比较了15个cp基因组的IR/LSC和IR/SSC边界结构(包括来自GenBank的四个变豆菜属和一个刺芹属样本,四个新测序的变豆菜属叶绿体基因组和一个新的刺芹叶绿体基因组;图3)。IRb/LSC边界位于rps19基因内(rps19的5′端位于IRb区,而3′端位于LSC),但S. flavovirens样品(NC_061752)除外,扩增长度为55或58bp。IRa/SSC边界位于ycf1基因中(ycf1的5′端位于IRa区,3′端位于SSC),IRa区跨度为1122–1872 bp。IRb/SSC边界变化明显:三个样本位于ndhF内,向IRb区域扩展了1–34bp,而其他12个样本距离IRb/SSC边缘5或6 bp。

img

图3 15个叶绿体基因组的SC/IR连接的比较。JLA表示LSC/IRa边界;JSA表示SSC/IRa边界;JSBindicates SSC/IRb边界;JLB表示LSC/IRb边界

mVISTA共线性结果显示,非编码区比编码区更具可变性,LSC和SSC区的序列分化水平高于两个IR区,基因间间隔区(IGS)是分化程度最高的区域(图4)。13个叶绿体基因组中高度分化的区域出现在19个基因间间隔区,17个在LSC区域,包括atpH-atpI、ndhC-trnM、petB-petD、petD-rpoA、petN-psbM、psaJ-rpl33、rbcL-accD、rpB-trnC、rps16-trnQ、trnE-psbD、trnF-ndhJ、trnH-psbA、trnS-psbZ、trnS-trnR、trnT-trnF、ycf3-trnS、ycf4-cemA;一个位于IRa和SSC区域的边界:trnN-ndhF;一个在IR区域:trnV-rps12。除了这些区域外,一个编码区域ycf1也显示出高序列变异(图4)。

img
img

图4 以S.orthacantha var. stonifera(NCBI登录号MT561028)为参考的12个变豆菜属物种叶绿体基因组的共线性分析图

核苷酸多样性(Pi)的值范围从0到0.01658,整个叶绿体的平均值为0.00326(图5)。观察到IR区域具有比LSC和SSC区域更低的Pi值。LSC区域显示出最高的核苷酸多样性(Pi = 0.01658),而最低Pi在IR区域(Pi = 0)。筛选了LSC区域中Pi大于0.01的12个高变位点(图5),即cemA-petA(Pi = 0.01009),ndhJ-ndhK(Pi = 0.01124),petA-psbJ(Pi = 0.01059),petD-rpoA(Pi = 0.01436),petE-psbL(Pi = 0.01145),petN-psbM(Pi = 0.01265),psbZ-trnG(Pi = 0.01103),rpoB-trnC(Pi = 0.01658),trnH-psbA(Pi = 0.0145),trnR-atpA(Pi = 0.01175),trnS-trnR(Pi = 0.01551),ycf3-trnS(Pi = 0.01047)。两个高变位点,rps15-ycf1(Pi = 0.01128)和ycf1(Pi = 0.01389),在SSC区域中具有大于0.01的高Pi值,也在图中筛选。

img

图5 13个变豆菜属植物叶绿体全基因组的核苷酸多样性。LSC表示大的单拷贝区域,IR表示反向重复区域,SSC表示小的单拷贝区

3、重复结构和简单序列重复

研究分析了四个新测序的变豆菜属cp基因组(S. caerulescens、S. hacquetiodes、S. orthacantha var. brevispina和S. tienmuensis)中简单序列重复序列(SSRs)的特征,SSRs的分布模式如图6A-B。在这四个新测序的变豆菜属cp基因组中分别检测到40、39、38和35个SSR基因座。最丰富的SSR是A或T核苷酸重复序列,占总数的28.95%-35%。SSR主要分布在LSC区域(76.47%–78.13%),在SSC区域(11.11%–13.89%)和IR区域(8.33%–11.76%)显著较低。此外,它们只有单核苷酸和二核苷酸重复。其中,单核苷酸重复序列是最常见的SSR,分别占77.5%、71.79%、73.68%和74.29%,其次是二核苷酸重复序列,分别占22.5%、28.21%、26.32%和25.71%。

通过REPuter筛选,在四个新测序的变豆菜属cp基因组中检查发现了42至68个30bp或更长的散在重复序列(图6C-D)。S. tienmuensis(4;68)的种类数和重复总数高于S. caerulescens(3;42)、S. hacquetiodes(2;44)和S. orthacantha var. brevispina(3;46)(图6C)。在S. caerulescens、S. tienmuensis和S. orthacantha var. brevispina中分别只发现了一个、两个和一个反向重复,而在S. hacquetiodes中没有发现反向重复。在S. tienmuensis中只有一个重复序列(图6C)。在这四个新测序的变豆菜属cp基因组中,长度在30-40 bp之间的重复序列数量超过了长度为41-50 bp、51-60 bp、61-70 bp和超过70 bp的重复序列(图6D)。

img

图6 四个新测序的变豆菜属物种叶绿体基因组重复序列统计。A.分布在LSC、SSC和IR区域的SSR数量。B.SSR类型的数量。C.四种SDR的数量。D.不同长度SDR的数量

4、密码子使用统计

根据密码子使用分析,在四个新测序的变豆菜属物种cp基因组中,PCG的总序列大小为67857-67863bp,编码22673-22690个密码子。亮氨酸编码的最大密码子数为2382-2390,其次是异亮氨酸,密码子数从1909至1918。半胱氨酸含量最低为237-239。在四个新测序的豆菜属物种cp基因组中,相对同义密码子使用(RSCU)值略有不同(图7)。RSCU经常使用32个密码子 RSCU > 1,34个使用频率低的密码子 RSCU < 1。AUG在所有四个cp基因组中都显示出偏好。编码色氨酸(Trp)的密码子UGG的使用频率没有显示出偏差(RSCU = 1)。

img

图7 Sanicula caerulescens (a), S. hacquetiodes (b), S. orthacantha var. brevispina (c)和S. tienmuensis (d)中20种氨基酸和终止密码子的密码子含量

5、系统发育分析

研究共构建了三个数据集,包括完整的cp基因组序列、126个独特IGS区域的串联序列、79个独特PCG的串联序列(图8),以研究13个变豆菜属物种之间的系统发育关系,其中Erngium planum L.和E. foetidum为外群。利用最大似然(ML)方法,在三个数据集的基础上建立了三个系统发育树,它们之间表现出高度一致性。因此,这里只展示了基于79个PCG串联的ML拓扑结构,同时使用贝叶斯推断(BI)和最大简约法(MP)分析,并在每个节点上加上了ML/MP/BI支持[bootstrap支持(bs)/bs/后验概率(pp)]值,只有轻微差异。

img

图8 基于13个Sanicula样本,两个Eryngium物种作为外群,使用79个串联的PCG基因,通过ML、MP和BI分析得到系统发育树。支持值和后验概率值以ML/MP/BI的顺序显示在分支上,不显示小于50/50/0.5的值

我们的分析证实了Sanicula属是单系群,并得到了强有力的支持。在这个单系群中解析出了两个主要的支系(支系I和支系II)。支系I包括两个完全支持的亚支系(A和B)。亚支系A与Pseudopetagnia组一致。亚支系B包含了属于Sanicula属中两个不同组的两个物种,即Sanicla组和Tuberculatae组。支系II分为两个亚支系(C和D),并得到了完全支持。亚支系C包括三个样本,分别代表S. favovirens和S. chinensis。然而,它们属于两个不同的组,即Tuberculatae组和Sanicla组。亚支系D包含了代表Tuberculatae组中的S. rubrifora的两个样本。这些结果表明,Tuberculatae组和Sanicla组不是自然的单系群。

在我们的研究中,还评估了20个高度变异的区域(atpH-atpI、ndhC-trnM、petB-petD、petD-rpoA、petN-psbM、psaJ-rpl33、rbcL-accD、rpoB-trnC、rps16-trnQ、trnE-psbD、trnF-ndhJ、trnH-psbA、trnN-ndhF、trnS-psbZ、trnS-trnR、trnT-trnF、trnV-rps12、ycf3-trnS、ycf4-cemA和ycf1),以及这些高度变异区域的串联,用于系统发育分析(附加文件6、7、8、9、10、11:图S2-S7)。包括trnE-psbD(附加文件8:图S4B)、trnS-trnR(附加文件9:图S5C)和串联区域(附加文件11:图S7)在内的树分子片段产生了类似的拓扑结果。然而,与整个叶绿体基因组序列(附加文件5:图S1A)、126个独特内含子间隔区的串联(附加文件5:图S1B)和79个独特编码基因区的串联(图8)构建的三棵拓扑树相比,基于不同序列数据集的节点上的支持值是不同的。例如,来自trnE-psbD和trnS-trnR数据集的支系I中的节点显示出较低的支持(bs=89.9%和bs=85%;附加文件8、9:图S4B、S5C),低于来自79个独特编码基因区的串联、整个叶绿体基因组和126个独特内含子间隔区的串联的支持值(bs=100%,100%,99.4%;图8;附加文件5:图S1A、B)。此外,20个高度变异区域的串联在支系I和支系II中具有强有力的支持(附加文件11:图S7)。这些结果表明,与单个变异区域相比,整个完整的叶绿体基因组、编码基因区的串联和内含子间隔区的串联以及高度变异区域的串联具有很好的解析能力,可以作为重建Sanicula属系统发育关系的可靠证据。

总结

通过基部叶片呈圆形、圆心形或心形五边形,通常有掌状裂片;雌雄同株的花序呈聚伞状、聚伞花序或总状花序,Sanicula属可以很容易地与伞形科亚科的其他属进行区分。然而,根据Sanicula属在根茎、叶片、花序和果实等形态特征的差异,了解其分类学和系统发育关系一直是非常困难的。因此,之前报道的某些Sanicula物种的叶绿体基因组存在模糊或错误的信息,可能导致错误的鉴定,这些物种包括S. astrantiifolia、S. chinensis、S. giraldii、S. lamelligera和S. orthacantha。在本研究中,我们使用了13个Sanicula属的基因组(包括四个新测序的、五个重新注释的和四个先前报道的),代表了九个物种、一个变种和两个刺芹属物种,以阐明它们的系统发育关系。在对Sanicula样本进行的分析中,叶绿体基因组的结构、基因顺序和GC含量在Sanicula属的样本中高度保守且几乎相似,并且与伞形科的其他属和其他被子植物的叶绿体基因组完全一致[2, 17, 20, 21, 23–26]。13个叶绿体基因组的大小从155,335 bp(S. favovirens; NC_061752和OP703176)到155,764 bp(S. lamelligera; OP703174)不等(表1)。这里测序的Sanicula叶绿体基因组总共包含126个基因(包括103个独特基因),总的GC含量为38.16%或38.25%(表1)。然而,一些物种在不同样本中发现了不同数量的基因,例如,S. favovirens(NC_061752)、S. orthacantha var. stolonifera(MT561028)、S. rubrifora(MT528260)和S. rubrifora(NC_060324)分别包含129、133、133、130个基因,而这里的所有注释结果均为126个基因。为了消除参考文献和注释软件的影响,使用Plastid Genome Annotator (PGA)和Geneious Prime 2020.0.5对这13个样本进行了重新注释,参考物种为Heteromorpha arborescens(NC_053554),它们的tRNA基因经过tRNA-SE的验证。令人意外的是,我们重新注释的这13个序列中仅包含126个基因,并且在本研究中没有发现任何基因丢失(表2)。

叶绿体基因组长度的变化通常暗示着内含子区域的扩张,在某些分类群的进化研究中具有重要意义[23–25, 31–33]。然而,我们的研究结果表明,在Sanicula属的叶绿体基因组中只观察到了轻微的变化,没有明显的扩张或收缩。在13个Sanicula叶绿体基因组中,内含子区域的长度有所变化,其中S. rubrifora(26,340 bp; MT528260)的内含子区域最长,而S. favovirens(26,217 bp; NC_061752)最短。只有ndhF基因在S. rubrifora中扩张了34 bp的长度,扩张到了IRb区域,而其余12个Sanicula样本的ndhF基因完全位于SSC区域内。而rps19基因在S. favovirens(NC_061752)中从IRb区域收缩了27 bp的长度。这些结果与伞形科其他物种的叶绿体基因组中IR区域的扩张情况相似[18, 34]。基因组组成包括基因序列长度、tRNA的丰度、GC含量分布位置和其他相关特征等因素,以及自然选择,是影响密码子使用偏好的两个主要因素[27, 28, 35–37]。在Sanicula叶绿体基因组中,共有63个密码子编码20种氨基酸,密码子的使用偏好偏向于第三密码子位置的A或U,这与其他伞形科分类群一致[2, 23, 29, 30] 许多研究证明,叶绿体基因组中SSR的变异在种群遗传学研究、物种鉴定和进化关系研究中被广泛应用[26, 34, 38]。在本研究中,这些Sanicula叶绿体基因组中的SSR和SDR的特征也是相似的。

我们的研究结果表明,单核苷酸重复(A/T)是最丰富的重复类型,而IR区域中的SDR和SSR数量较少,比LSC和SSC区域少,这与其他伞形科分类群的分析结果一致[2, 18, 34]。因此,这表明LSC和SSC区域具有较高的核苷酸变异水平,可以作为潜在的多态性分子标记用于Sanicula的鉴定、系统发育和进化研究。我们对核苷酸多样性的分析显示,在非编码区域中有19个IGS(17个在LSC区域,包括atpH-atpI、ndhC-trnM、petB-petD、petD-rpoA、petN-psbM、psaJ-rpl33、rbcL-accD、rpoB-trnC、rps16-trnQ、trnE-psbD、trnF-ndhJ、trnH-psbA、trnS-psbZ、trnS-trnR、trnT-trnF、ycf3-trnS、ycf4-cemA;一个在IRa和SSC区域的边界上:trnN-ndhF;一个在IR区域:trnV-rps12),以及一个编码区域(ycf1)在Sanicula中显示出高水平的分化(图5)。这一发现与被子植物中通常观察到的多样性模式一致,即与编码区域相比,非编码区域的核苷酸多样性往往较高[39]。然而,在这些可变序列中,只有一个叶绿体标记物rps16-trnQ被应用于伞形科Saniculoideae亚科的系统发育研究[8, 13]。在本研究中,包括atpH-atpI、ndhC-trnM、petB-petD、petD-rpoA、petN-psbM、psaJ-rpl33、rbcL-accD、rpoB-trnC、rps16-trnQ、trnF-ndhJ、trnH-psbA、trnS-psbZ、trnT-trnF、ycf3-trnS、ycf4-cemA、trnN-ndhF、trnV-rps12和ycf1在内的18个高变异区域在拓扑结构上造成了一定程度的混乱(附加文件6、7、8、9、10:图S2-S6)。然而,基于trnE-psbD(附加文件8:图S4B)、trnS-trnR(附加文件9:图S5C)和串联区域(附加文件11:图S7)的系统发育分析结果与整个叶绿体基因组序列(附加文件5:图S1A)、126个独特IGS区域的串联(附加文件5:图S1B)、79个独特PCGs区域的串联(图8)的系统发育分析结果相似,可以很好地区分Sanicula中的两个支系。因此,trnE-psbD和trnS-trnR这两个新的高变异叶绿体标记物可能成为系统发育重建中有潜力的分子标记物。

本文来自:物种分类及进化研究-公众号

最后编辑于 2024-12-31 · 浏览 277

回复收藏点赞

全部讨论0

默认最新
avatar
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部