RNA测序技术应用于肝癌的文献计量学分析
原发性肝癌是全球常见的恶性肿瘤之一。据统计,2020年原发性肝癌的全球新发病例共905 677例,占所有新发癌症病例的4.7%,位居新发癌症病例的第六位;死亡患者共830 180例,占所有癌症死亡病例的8.3%,位居癌症死亡病例第三位[1]。近几十年来,研究者在肝癌的诊断、治疗及预后等方面取得重大进展,尤其是随着转录组测序技术(RNA sequencing,RNA-seq)等基因测序技术被应用于生物医学领域,肝癌的发病机制以及诊断、预后相关的生物标志物被不断发现,在一定程度上改善了肝癌患者的结局。
RNA-seq是一种比较成熟的转录组学研究方法,主要利用高通量测序方法获得细胞组织的转录组信息,可以用于研究不同的RNA群体,例如信使RNA、非编码RNA等,有助于发现新的转录本,识别可变剪接基因和检测等位基因特异性表达[2]。近年来,转录组学已被应用于识别疾病的生物标志物以及研究各种刺激和应激导致的生物学反应等领域,并在基因组和分子生物学研究中发挥着关键作用[3]。
随着转录组测序技术的广泛运用,出现大量肝癌RNA-seq研究的相关高质量文献,文献中所包含的信息,可以较为全面地反映这一领域研究的发展进程和热点动向。通过对既往研究成果的总结,可以对未来研究以及学科建设等方面起到积极的推动作用。本研究运用CiteSpace 6.1.R6软件[4],对Web of Science数据库近二十年来肝癌RNA-seq研究相关的文献进行全面的文献计量学分析,旨在了解该领域当前的研究热点和未来的发展趋势,为后续进一步研究提供参考。
1 资料与方法
1.1 资料来源及检索策略
本文的统计分析数据来源于Web of Science核心合集,引文索引选择“Science Citation Index Expanded(SCI-EXPANDED)”,为保证检索文献的全面性,使用普通检索。以检索式(TS=“livercancer” OR “hepatocellularcarcinoma” OR “hepaticcarcinoma” OR “hepatoma” OR “hepatocarcinoma” OR “HCC” OR “hepaticcancer” OR “livercarcinoma”)AND(TS=“RNAsequencing”OR“RNA-seq” OR “RNAsequence”)进行检索,语言类型为“English”,文献类型限定为“Article”,时间2001—2022年。同时,为保证来源数据的质量和代表性,由2名课题组成员分别根据文献内容对其进行筛选,排除与主题“肝癌”和“RNA-seq”不相关的文献,核查对比并去重后最终保留文献1 397篇。以“纯文本文件”格式导出,记录内容选择“全记录与引用的参考文献”,最终导出的数据包括每篇文献的标题、关键词、作者、机构、地址、摘要、发文时间等内容。
1.2 研究方法
1.2.1 可视化分析法:运用CiteSpace 6.1.R6软件,以获取的RNA-seq应用于肝癌研究的相关文献作为数据资料,将文献信息进行转换,统计每年的文献数量,使用Excel软件绘制年发文量和年累计发文量趋势图,分析2001—2022年的发文量趋势,并对该研究领域的作者、国家和机构的合作情况进行网络可视化分析,对该研究领域的文献关键词进行共现分析、聚类分析和时间线图分析。
1.2.2 参数设置:将时间跨度设置为2001—2022年,时间切片设置为2年,节点阈值参数g-index根据节点情况设置在5~25之间,TopN %均选择10。
1.2.3 数据分析及判断标准:使用发文量、中介中心性、聚类模块值和平均轮廓值等指标对可视化结果进行评价。中介中心性是测量节点在网络中重要性的指标,值越高,说明节点越重要[5],若中心性超过0.1则说明该节点为中心节点,在研究中较为重要且具有较大的影响力。聚类模块值Q(Modularity)和平均轮廓值S(Silhouette)则是聚类图谱绘制效果的评判依据,Q值用于衡量聚类效果,该值越大,表示聚类划分效果越好;S值用于衡量整个聚类成员的同质性,该数值越大,则代表各聚类成员的相似性越高。一般认为Q>0.3、S>0.7时聚类分布良好。
2 结果
2.1 RNA-seq应用于肝癌研究的发文量趋势分析
发文量是最基本的文献计量指标,包括年发文量与累计发文量[6]。2001—2022年检索到RNA-seq应用于肝癌研究领域的文献共1 397篇,对年发文量进行统计发现,2001—2016年,发文量从4篇增至48篇,为平稳增长期;2017—2022年,发文量从80篇激增至366篇,为快速增长期。对年累计发文量进行指数拟合,发现拟合优度R2=0.977,说明2001—2022年该领域的累计发文量呈指数增长(图1)。

2.2 RNA-seq应用于肝癌研究的发文作者分析
作者合作网络图谱能够体现RNA-seq应用于肝癌这一研究领域研究者之间的合作关系。在CiteSpace选取发文量排名前10%的作者,绘制作者合作共现网络图谱(图2)。网络的节点数为377,连线数为774,密度为0.010 9。节点表示作者,节点越大,表示作者发文次数越多;连线表示作者间的合作关系,连线越粗,表示作者间合作越紧密。总体来看,研究者之间较为分散,并没有形成明显的合作网络。

此外,根据作者发文量还能确定这一领域的核心研究群体。普莱斯定律中核心作者的计算公式为:

其中,M指论文数量,Nmax指对应年限中论文发表数量最多作者的论文数量。当某作者发表论文数量大于M时,该作者为该领域的核心作者;而当核心作者发表论文总量达到该领域全部论文的50%,说明核心作者群已经形成。
在本研究所选取的文献中,发文量最多的作者是CHEN Gang(20篇),即Nmax=20,根据公式计算得出M=3.35,因此,发文量>3.35(取整为3)的作者为该领域的核心作者。经分析可知,核心作者共有180人,发表论文总量为834篇,占该领域发文量的69.6%,因此可知,该领域的核心作者群已经形成。
领域内发文量排名第一的核心作者CHEN Gang(20篇)所在团队[7]主要是利用肝癌患者的测序数据,探讨肝癌的发病机制,包括在microRNA、lncRNA以及某些蛋白质等分子层面上的调控机制,并研究了这些标志物在肝癌诊断和预后等方面的临床意义。而发文量排名第二的学者ZHOU Jian和FAN Jia(17篇)所在团队[8]则主要是通过单细胞测序数据,研究肝细胞癌转移、复发、生长侵袭等方面的信号通路,为肝癌的临床治疗提供思路。
2.3 RNA-seq应用于肝癌研究的发文国家分析
使用CiteSpace绘制国家(地区)合作网络图谱(图3),网络的节点数为55,连线数为242,密度为0.163。节点表示国家(地区),连线表示国家(地区)间的合作关系。可以看出节点的共现密度较大,国家间形成了复杂的关系网络,表明国家间存在相互合作研究关系。本文从发文量和中介中心性两个方面对结果进行分析。首先从发文数量上来看,中国发文量最多,高达990篇,位居第二的是美国,为261篇,接下来依次是日本、韩国和德国,发文量均在50以上。其次从中介中心性上来看,在图3中紫色外圈的节点均为中心性>0.1,包括美国(0.44),德国(0.30),英格兰(0.23),巴西(0.14)和意大利(0.13)。

2.4 RNA-seq应用于肝癌研究的发文机构分析
通过对不同机构的发文情况进行分析,可以了解RNA-seq应用于肝癌领域中研究力量的分布情况。使用CiteSpace绘制机构合作网络图谱(图4),网络中节点数为315,连线数为1 263,密度为0.025 5。可知发文量排名前5位的分别是复旦大学(80篇)、中山大学(78篇)、中国人民解放军海军军医大学(64篇)和广西医科大学(64篇),均为中国的机构。中心性>0.1的机构包括美国哈佛大学(0.15)、中国人民解放军海军军医大学(0.14)、美国西奈山伊坎医学院(0.14)。机构的地理位置分布与国家的发文情况相对应,发文量多的机构均分布在中国,影响力较大的机构大多分布在美国。

2.5 RNA-seq应用于肝癌研究的关键词共现分析
关键词是文章主题的高度概括,代表着文章的核心内容,其频次、关联度、突现性等可以揭示该领域的研究热点、内在联系及重要程度。使用CiteSpace绘制关键词共现网络图谱(图5),网络中节点数为454,连线数为828,密度为0.008 1。可知图中关键词有454个,其中频次100以上的关键词为hepatocellular carcinoma(肝细胞癌)、expression(表达)、cancer(癌症)、cells(细胞)、proliferation(扩散)、liver cancer(肝癌)、metastasis(转移)、identification(识别)、gene expression(基因表达)、growth(增长)、gene(基因)、activation(激活)、progression(进展),由此可以看出,该领域的研究热点主要包括肝癌发生、扩散、复发、转移等结局相关的分子机制、基因表达及其分子标志物等。

2.6 RNA-seq应用于肝癌研究的关键词聚类分析
关键词聚类图谱可以表明该领域的不同研究关注点,反映该领域各个研究主题的组成情况。使用CiteSpace软件默认的EM聚类算法(Expectation Maximization,最大期望算法)对关键词网络进行聚类,使用LLR算法提取聚类标签,设置从Keyword中提取聚类名称。最终获得的聚类图谱S=0.896 6,Q=0.768 8,表明该图谱网络结构合理,能够代表领域的研究热点。关键词聚类知识图谱共有19个聚类,见图6。其主要涉及的研究领域包括:(1)肝癌宏观病因研究,例如丙肝病毒、非酒精性脂肪性肝病;(2)肝癌微观病因研究,例如基因突变、信号通路改变;(3)肝癌的发生机制研究,例如PI3K/Akt信号通路在肝癌发生、发展中的作用;(4)肝癌免疫微环境的研究;(5)肝癌诊断和预后的生物标志物以及治疗靶点的研究。

2.7 RNA-seq应用于肝癌研究的关键词时间线图
时间线图可以展现领域研究发展脉络,有助于研究者了解重要关键词演进的时间路径。使用CiteSpace软件在关键词聚类的基础上生成时间线图,得到节点数为178,连线数为922的时间线图(图7)。线条颜色代表聚类出现的时间,线条上的节点表示该聚类中的关键词,节点出现时间表示该关键词首次出现的时间,节点越大,则出现频次越高。总体来看,各模块关键词首次出现最为密集的时期是2015—2022年,这也正是发文量快速增长的时期。

3 讨论
与某一主题相关的文献数量可以反映研究者对该领域的关注度,文献数量越多,表明相关研究越活跃。从本研究发文量的年度趋势可以看出,2001—2022年对于肝癌RNA-seq的研究呈上升趋势,并且年累计发文增长曲线呈“S”形,目前正处于前半程发展阶段,在2001—2016年平稳增长,而在2017—2022年期间快速增长。根据普莱斯逻辑增长曲线规律和托马斯库恩的科学发展模式理论[4],可知该领域正处于“范式积累”阶段,即从理论研究向应用阶段过渡,可以推测接下来该领域的研究更多会集中于应用部分,即运用RNA-seq的研究成果对肝癌患者进行临床治疗。
对国家/地区、机构、作者分布分析可以促进了解该领域的团队合作以及全球合作情况,协助研究人员和团队找到可利用资源提高全球的合作效率。从发文作者来看,网络图谱共现密度不高,研究者之间较为分散,因此该领域的各研究者应该加强相互合作。从发文国家来看,综合分析发文量和中心性两个指标,可知中国发文量最多,占比达54.94%,但中心性仅为0.10,这可能是因为中国研究者数量较大,但研究深度不够;美国发文量排名第二,但中心性排名第一,高达0.44,这说明在RNA-seq应用于肝癌的这一领域,美国科研实力较强。另外,发文数量最多的10个国家主要位于欧洲(5个)、亚洲(4个)和北美洲(1个),其中发达国家占比达90%;具有影响力(中心性>0.1)的国家主要分布在北美洲(美国)和欧洲(德国、英国、巴西和意大利),这一情况也与机构的分布相适应。可知在东西方均有一定数量的学者对肝癌RNA测序开展研究,但相比之下,西方学者更加注重相互合作,且研究更为深入,可能是因为更好的社会经济发展可以成为确保足够资金、资源和人力投入的前提,以探索全新的科学研究[9],因此欧美地区生物医学科研的起步较早,科研基础深厚。而中国在癌症生物学研究这一领域起步较晚,故影响力略有欠缺,但随着国力的增强,科研投入增多,发文量也逐渐增多。未来中国应该加强国家、机构、作者之间的交流,提高研究水平,进而增强在本领域的影响力。
通过对关键词的分析并结合具体文献的研读,可以洞察肝癌研究和RNA-seq两个方面的发展情况。从本研究对关键词的分析可以看出,近年来,在肝癌研究领域,随着RNA-seq的应用逐渐广泛,肝癌的危险因素、疾病发生及进展的分子机制[10-11]、疾病诊断和预后标志物[12]、治疗靶点[13]等方面的探索均有了质的飞跃。在危险因素方面,研究发现,乙型肝炎是肝癌发生的危险因素之一,其致突变作用是由于病毒DNA整合在人体肝细胞中,形成嵌合融合转录本,进而诱导肝癌的发生[14]。在生物标志物方面,各种基因[15]和circRNA[16]等生物标志物的发现使肝癌患者在新药试验和临床实践中得到了更准确的管理,也给肝癌靶向治疗的药物研究提供了方向。肝癌RNA-seq也可用于精准医疗[17],大样本基因组数据集与功能组学和其他组学数据集的整合为肝癌的治疗提供了新的视角。另一方面,在肝癌领域方面的应用也促进了RNA-seq的发展。首先,在技术改进方面,相比于原来的Bulk测序,单细胞测序技术的兴起为科研人员的精准研究提供了坚实的基础[18]。其次,在分析方法方面,不断更新的算法让研究结果持续优化[19]。另外,对于转录组测序数据,最初只是用生物信息学方法对数据进行分析,称为“干实验”;后来结合免疫组化实验、QT-PCR实验等对分析结果进行验证;再到最近使用测序数据来验证实验猜想,再运用验证实验检验数据分析结果[20],研究思路的变化也使得RNA-seq的应用发挥了不同价值。可以预测,今后该领域的研究将会侧重于将测序数据和实验结合起来进行研究,在临床上则是通过RNA-seq实现肝癌的精准治疗。
随着大数据分析时代的到来,各领域的文献信息激增,通过文献计量分析,研究人员可以直观了解领域内研究的热点趋势,明确研究方向[21]。本研究基于CiteSpace文献可视化软件对Web of Science数据库中2001—2022年与肝癌RNA-seq研究相关文献进行分析,发现国内外该领域的发文量呈指数增长,肝癌发生、发展的分子机制、疾病的生物标志物和治疗靶点是该领域的研究热点,但我国各机构的研究较为分散,研究深度略有欠缺,未来应该加强同世界各国之间的合作,以提高研究深度。本次研究的局限性在于仅纳入Web of Science数据库中的英文文献,并未纳入其他语言和数据库中的优质文献,这会给研究结果造成一定偏差。未来研究中,应该考虑纳入中国知网、万方数据知识服务平台、PubMed等数据库中的相关文献,以便获得更加全面的结果。
参考文献略
最后编辑于 02-13 · 浏览 897