快报 | 基于呼吸组学的肺结核检测方法:一项横断面研究
作者:付亮,王磊,汪海波,杨敏,杨倩婷,林奕,关善义,邓永聪,刘磊,李庆运,何梦琦,张培泽,陈海斌,邓国防
作者单位:国家感染性疾病临床医学研究中心,深圳第三人民医院(付亮,杨敏,杨倩婷,林奕,关善义,邓永聪,刘磊,张培泽,邓国防);Breax实验室,PCAB呼吸和代谢研究中心(王磊,李庆运,何梦琦,陈海斌);北京大学临床研究所(汪海波)
通信作者:邓国防,Email:jxxk1035@yeah.net;张培泽,Email:82880246@qq.com;陈海斌,Email:haibinc@hotmail.com
A cross-sectional study: a breathomics based pulmonary tuberculosis detection method
Liang Fu ,Lei Wang,Haibo Wang,Min Yang,Qianting Yang,Yi Lin,Shanyi Guan,Yongcong Deng,Lei Liu,Qingyun Li,Mengqi He,Peize Zhang,Haibin Chen,Guofang Deng
BMC Infect Dis,2023,23(1):148.
doi: 10.1186/s12879-023-08112-3.
PMID: 36899314.
摘 要
背景:肺结核(PTB)的常用诊断方法存在准确性差、价格昂贵或操作复杂等问题。基于呼吸组学的检测方法可能是快速和无创诊断PTB的一个有吸引力的选择。
方法:采集518例PTB患者和887例对照受试者的呼气样本,使用高压光子电离飞行时间质谱(high-pressure photon ionization time-of-flight mass spectrometry,HPPI-TOFMS)检测。采用机器学习算法进行呼吸组学分析和PTB检测建模,并经盲法对430名临床受试者进行性能验证。
结果:基于呼吸组学的PTB检测模型盲测430名临床受试者的准确率为92.6%,敏感度为91.7%,特异度为93.0%,AUC为0.975。年龄、性别和抗结核治疗对PTB检测性能没有显著影响。在区分PTB与其他肺部疾病(182例)时,挥发性有机化合物(volatile organic compound, VOC)模型也显示了良好的性能,准确率为91.2%,敏感度为91.7%,特异度为88.0%,AUC为0.961。
结论:基于简单、无创呼吸组学的PTB检测方法,具有高敏感度和特异度,对临床PTB筛查和诊断具有潜在价值。
关键词:肺结核;诊断;机器学习;挥发性有机化合物;呼吸组学
关键信息
1.关于这个话题,我们已知的是:呼气挥发性有机化合物分析是一种潜在的PTB检测技术,但我们需要一个实时、快速、准确、简单的临床应用呼吸分析平台。
2.本研究对领域的补充:我们提出了一种针对PTB的在线呼气检测方法,并在一个大型临床队列中证明了其具有高敏感度和特异度。
3.本研究将如何影响研究、实践或政策:本研究可能促进呼气检测在临床结核病检测方面的应用和相关生物标志物的研究。
引 言
结核病仍然是影响全球健康的主要威胁,估计全球每年有1000万例新发患者和140万例死亡患者。2019年,估计有290万例新发患者,但通过细菌学检查确诊肺结核的只有57%,实际报告患者数与估计患者数之间仍有很大的差距。缺乏及时和准确的结核病检测技术已成为预防和终结结核病的主要障碍之一。未确诊的结核病与大量的发病率和死亡率相关,并导致结核病在社区中持续传播,这使得我们必须重视结核病诊断服务和提高其诊断性能。
以痰液为基础的结核病诊断通常准确性差、费用昂贵且流程复杂。首先,痰标本难以收集、处理和运输,只有1/3的疑似结核病患者能够提供足够的高质量的痰液样本,而儿童、HIV感染者和肺外结核患者则更为困难。其次,痰抗酸杆菌染色假阴性率较高,普遍高达50%;而单独的痰培养敏感度较低,大约只有30%;尽管GeneXpert MTB/RIF(Xpert)在临床结核病检测和耐药性检测方面具有良好的性能,而且已被世界卫生组织推荐,但其仍需要良好的基础设施和痰样本。世界卫生组织已经确定了4种高优先级的诊断开发检测类型,并为每种类型创建了目标产品概况(TPP),这其中就包括一些基于非痰液的检测技术。因此,我们比以往任何时候都更加需要快速、准确且是非痰液标本的结核病检测技术。
呼吸组学是代谢组学的一个分支,具有良好的可及性、无侵袭性和特异性等显著优点,已成为一种很有开发前景的工具。呼吸试验是通过检测结核分枝杆菌(MTB)与受感染宿主产生的挥发性有机物来诊断结核病,并已被许多研究者认可,最常用的检测方法包括气相色谱-质谱(GC-MS)和电传感器或化学传感器。在使用GC-MS方法的研究中,Phillips等使用GC-MS检测痰培养阳性的肺结核(PTB)患者和健康对照者(HC)呼气时的挥发性有机物,以及结核分枝杆菌培养瓶的上层空气,结果发现,在12个已知的挥发性有机物的小样本模型中,患者的呼气挥发性有机物与萘、1-甲基环己烷、1,4-二甲基-的培养挥发性有机物相似,敏感度为82.6%,特异度为100.0%,这验证了呼吸检测对PTB检测的可行性;该研究进一步在不同的大陆和人种中验证了基于挥发性有机物的PTB检测方法,在一组有症状的226例高危患者(分布于美国、菲律宾和英国)中,总体的准确度约为85%。ABeccaria等在南非也使用气相色谱分析活动性肺结核患者和健康对照者呼出气体中挥发性有机物,通过随机森林方法实现了100%的敏感度和60%的特异度。此外,他们在海地还进行了另一项验证研究,即使用二维的GC-MS方法在肺结核和非肺结核患者中进行呼出气分析,发现在具有22种特征性挥发性气体的随机森林模型中,2-丁基-1辛醇可在85%(12/14)的患者中被检测到,而对照组仅有50%(10/20)能被检测到,因此认为该物质是可以区分肺结核与非肺结核患者表达最多的物质。同时,菲利普斯在模糊逻辑的分析中也确定2-丁基-1-辛醇是鉴别痰培养中有无分枝杆菌的最佳物质。Bobak等在南非进行了一项用31名儿童呼出气诊断肺结核的探索性研究,发现在4种呼出气的挥发性气体中也包括癸烷和4-甲基丙烷,且在呼吸道感染中确诊肺结核的准确率高达90%。此外,基于传感器的呼出气测试方法在结核病/肺结核检测中也取得了良好的性能。例如,Marcel等在194名参与者中构建并评估了一种基于DiagNostic (C-it BV)的结核病诊断方法,在区分结核病患者和健康者时达到了93.5%的敏感度和85.3%的特异度,在整个测试人群中识别结核病患者时的敏感度为76.5%,特异度为87.2%。Morad等运用60个盲法验证数据库评估了一种用于结核病检测的纳米传感器,发现其特异度、阳性预测值(PPV)和阴性预测值(NPV)分别为88%、76%和94%。2017年,Mohamed等运用电子鼻分析方法对多种生物样本(血液、呼出气、痰液和尿液)进行了分析,发现260例结核病患者和240名健康参与者,其敏感度和特异度均>95%。以上研究均证实了运用呼出气中挥发性有机物进行肺结核检测的可行性。
GC-MS在物质的定性和定量检测方面具有优势,但是色谱柱的选择和复杂的程序需要专业的技能,均限制了GC-MS的检测范围,导致不同研究报告的挥发性有机物的一致性较差。改良的传感器通常是使用单个或一系列传感器来识别对呼出气的响应模式,而不考虑具体的成分。其速度快,但容易受到环境等其他干扰因素的影响。因此,实时、稳定、准确、简单的挥发性有机物检测呼气分析平台仍然是很有必要的,而在线质谱平台恰恰可以满足这些要求。
近年来,不同的在线质谱技术被开发用于呼气分析,如质子转移反应质谱(PTR-MS)、二次电喷雾电离质谱(SESI-MS)、高压光子电离飞行时间质谱(HPPI-TOFMS)。HPPI-TOFMS平台由我们团队设计开发,已用于肺癌和食管癌检测,并取得了良好的效果,敏感度和特异度均>90%。在本研究中,我们旨在开发一种基于呼吸组学的PTB检测方法,并调查其在本研究临床数据集上的性能。
研究方法
一、实验设计和参与者
我们于2020年3月1日至2021年3月31日在深圳市第三人民医院进行了横断面研究。研究由深圳市第三人民医院伦理委员会(编号:2020-012-02)批准。所有参与者均获得书面知情同意。
所有参与者被分为病例组和对照组。对于病例组,根据以下标准前瞻性、连续招募确诊PTB患者:(1)年龄18~70岁;(2)Xpert和(或)痰培养诊断肺结核,并有结核病的临床表现和影像学表现;(3)未开始或开始抗结核治疗不足2周。对照组由无肺部疾病的健康对照组(HC)和有肺部疾病的患者(非健康对照组,UHC)组成,后者可能是非传染性疾病,也可能是非结核的其他传染性疾病。对招募的HC进行体检,标准如下:(1)年龄18~70岁;(2)无呼吸道症状(如咳嗽、咳痰、咯血、气短、呼吸困难或胸痛);(3)胸部影像学:无肺部病变(胸部X线或计算机断层扫描)。UHC的纳入标准:(1)年龄18~70岁;(2)有病原性确诊传染病或治疗提示肺部传染病,或有慢性非传染性疾病,无感染证据。如果安全气囊泄漏或无法获得足够的呼出气,病例组和对照组都将被排除在外。参与者注册流程如图1(a)所示。共有518例PTB患者和887名对照组(77名UHC和810名HC)参与研究。
医生负责临床诊断并收集呼出气样本,其他研究人员进行挥发性有机物检测和机器学习(ML) 建模,两方人员采用双盲方法,即检测人员不了解临床数据和其他测试结果,医生也不知道呼出气测试结果。表1是所有参与者的人口统计学和临床特征,包括年龄、性别和抗结核治疗情况。


二、取样步骤
所有呼出气样本都是使用预先定义的协议收集的,并在24 h内进行测试。采样装置由一次性气体接头和聚醚醚酮(PEEK)制成的采样袋组成。在本研究中,我们设置了标准的抽样要求和流程,以尽量减少日常饮食对呼气检测的影响。首先,如果受试者是住院患者,我们会告知参与者留取呼气样本提前做好准备:抽样前1 h内禁止吸烟、饮酒或饮食。其次,参与者被要求在取样前立即用纯化水漱口。第三,所有的样本都必须在相同的室内环境中收集,这可以尽量减少环境物质的影响。通过鼻部深吸气后,参与者从口中尽量完全呼出气体到采样袋(1.5 L容量)中,要求至少充盈1.2 L。
三、呼气样本检测
采用由真空紫外(VUV)灯HPPI离子源和正交加速度飞行时间(TOF)质量分析仪组成的HPPI-TOFMS对呼出气样本进行检测和分析。该平台采用了光子能量为10.6 eV的商用VUV-Kr灯。大部分挥发性有机物是直接在电离电位低于10.6 eV的电离区中电离。呼出气样本通过直径为250 μm、长0.60 m的不锈钢毛细管直接导入。HPPI离子源工作在软HPPI电离模式下,这种软HPPI电离模式通过M+ hγ→M+ + e的电离反应产生大量的自由基阳离子(M+),然后离子传输系统有效地将这些离子从离子源转移到正交加速反射TOFMS质量分析仪中。TOFMS信号以400 ps的时间-数字转换速率在25 khz下记录,所有的质谱累积60 s。因此,一份样本通过检测需要1 min。从每份呼出气样本中提取31 666对的光谱图数据。通过对浓度为1 ppmv的9种化合物标准气体的飞行时间和m/z校准,可以将飞行时间轴转换为m/z,其范围(Q25,Q75)为0,350。TOFMS信号与VOC离子浓度呈正相关。脂肪族和芳香烃的检出的下限降至0.015 ppbv(体积1/10亿)。气相呼吸样品通过取样袋上直径250 μm,长0.60 m的毛细管直接吸入电离区。TOF信号由时间-数字转换器记录,所有的质谱累积60 s。HPPI-TOFMS检测呼气样本的质谱峰m/z <350。通过Python实现反对称小波变换从而实现降噪和基线校正。为了将质谱数据的离散信号转换为标准呼吸组学数据,我们计算出(X-0.1,X+0.1)范围内的最强峰面积,计算为m/z接近X的挥发性有机物特征。本研究使用ML模型,检测了1500个呼吸组学数据,这个模型的离子m/z范围为20,320,间隔为0.2。为了避免模型过拟合,我们进行了基于特征选择的统计分析,在模型使用前剔除差异无统计学意义的特征。
四、肺结核检测模型的构建
如图1(b)所示,所有入选的参与者被随机分为两组:70%的参与者进行模型构建,30%的参与者进行模型盲测。因此,随机选择361例PTB患者和614名健康对照发现数据集。通过100次7:3随机化,将发现数据集进一步划分为训练子集和内部验证子集。在训练子集上,采用随机森林法(RF)、支持向量机(SVM)、逻辑回归(LR)、极端梯度增强(XGB)和决策树(DT)等几种流行的ML模型作为PTB患者和对照组的分类器。这些ML模型的描述和主要参数设置如表2所示。然后,根据模型在内部验证子集中的表现,选择区分PTB患者和对照组的最佳分类器,命名为“BreaTB”。

五、性能评估和统计学分析
在构造BreaTB时,可以根据模型训练中特征的重要性或系数来确定最重要的特征。并对不同患者组间挥发性有机物相对密度进行特征差异性分析。
在盲法检测数据集上应用并评估了BreaTB,该数据集包括157例PTB患者、248名HC和25名UHC。将模型检测结果与临床确诊结果进行比较。此外,我们还根据临床特征分层评估了BreaTB的性能。采用ROC曲线分析计算敏感度(SEN)、特异度(SPE)、阳性预测值(PPV)、阴性预测值(NPV)、准确率(ACC)、ROC曲线下面积(AUC)及其相对95%置信区间(CI),评价结核分枝杆菌潜伏感染(LTBI)检测模型的性能。
使用SAS 9.4和Origin软件(2018版)进行数据的统计分析。描述性数据报告为分类变量的频率(百分率)或连续变量的中位数(最小值到最大值)。对连续变量采用Mann-Whitney U检验,分类变量采用卡方检验,比较不同患者组间的人口学特征。以P<0.05为差异有统计学意义。所有的测试都是双尾的。
研究结果
对于不同的ML模型,随机选择的训练集上100个模型的平均性能指标见表3。由于本研究纳入的数据集规模比较大,SVM、LR、DT等基本分类器在PTB检测任务中均有较好的表现。基于RF和XGB的PTB检测模型作为DT的元分类器和增强分类器,具有较好的性能。根据验证结果,选择性能最佳的基于RF和XGB的PTB检测模型进行进一步测试。结果显示,在验证数据集中,XGB模型的性能优于RF模型。但在盲法试验数据集中,RF模型的准确率(95%CI)为92.6%(90.1%~95.0%),敏感度(95%CI)为91.7%(88.5%~95.0%),特异度(95%CI)为93.0%(88.9%~97.2%),优于XGB模型。这意味着RF模型比XGB更健壮。因此,我们只进一步分析了基于RF的PTB检测模型(称为BreaTB)。图2显示了所有测试样本的BreaTB预测得分,代表了PTB感染的概率。分界线(阈值=0.5)很好地将结核病患者与对照组区分开来,假阳性和假阴性较少。


如表1所示,在训练数据集中,PTB患者的中位年龄明显高于对照组[36(18~70岁)vs. 28(18~69岁),PTB患者中男性的比例明显高于对照组(61.8% vs. 52.9%)。年龄≥30岁和性别在测试数据集中的分布与训练数据集中的分布相同,只有<30岁的分布不同。因此,有必要评估这些临床特征对模型性能的影响。如图3和表4所示,ROC曲线显示BreaTB在整个测试数据集中的AUC(95% CI)为0.975(0.961~0.998)。基于人口统计学和临床基线特征(如年龄、性别和抗结核治疗),BreaTB在不同亚组中的诊断表现基本一致,表明年龄、性别、抗结核治疗对BreaTB无明显影响。其中,年龄<30岁的参与者比年龄≥30岁的参与者有更好的BreaTB表现。对于不同性别,BreaTB的表现也略有不同,女性的敏感度高于男性,特异度低于男性。但抗结核治疗后,PTB患者与BreaTB对照组就难以区分了。除了一般特征外,我们还分析了PTB对HC和UHC的区分性能。BreaTB对HC中确诊PTB的敏感度为91.7%(87.4%~96.0%),特异度为93.5%(90.5%~96.6%),属于准筛查方案。相比之下,BreaTB在区分TB和UHC时达到了88.0%(75.3%~100%)的较低特异度,这是一种准诊断方案。


本研究通过统计分析,每次迭代选择30多个挥发性有机物离子进行BreaTB模型训练。为了分析不同挥发性有机物离子对PTB检测的重要性,我们通过基于RF模型的特征选择,选择了100次迭代的最佳挥发性有机物离子组合。然后,在射频建模中根据选择频率对所有选择的挥发性有机物离子进行排序。如图4(a)所示,每次迭代都选取了m/z分别为72、68、65、67、65.2的5个挥发性有机物离子。在超过90次迭代中选择了11个挥发性有机物离子。因此,我们分析了确诊PTB患者和对照组之间最重要的11种挥发性有机物离子。图4(b)显示了PTB患者和对照个体的质谱示例。结果表明,挥发性有机物含量最高的11种离子之间存在一定的差异,并以色条形式表现出来。为了进一步探索这些挥发性有机物离子,我们分析了PTB和对照组之间的组间差异,并评估了每种挥发性有机物离子在区分PTB和对照组方面的表现。图4(c、d)可见这11种挥发性有机物离子在PTB组与对照组之间差异均有统计学意义。挥发性有机物离子的区别性(区分PTB组和对照组的AUC)与组间差异的规模和显著性有关。图4(d)中的ROC曲线显示,单一挥发性有机物离子的鉴别能力有限(AUC<0.75)。然而,所有11种挥发性有机物离子的组合在测试数据集上表现良好,AUC(95% CI)为0.905(0.878~0.933)。这表明挥发性有机物离子面板是基于呼吸组学的PTB检测的基础。PTB组、UHC组和HC组的热图表明,这11种VOC离子的模式在视觉上是不同的。

由于TOF质谱仪的定性能力有限,我们只能根据这些PTB相关挥发性有机物离子的m/z(72.0, 68.0, 65.0, 67.0, 65.2, 69.0, 66.0, 59.0, 61.0, 53.0, 58.0)、相关性(图4e)、强度分布(图5)、其他已发表的潜在生物标志物,以及人体呼吸组学数据库推断出可能的化学物质。考虑到离子强度分布的相似性和m/z值的关系,m/z值为68和69的挥发性有机物离子可能是异戊二烯及其质子化阳离子;m/z值为58和59的挥发性有机物离子可能是丙酮及其质子化阳离子。异戊二烯和丙酮是人体呼吸中的常见代谢物,且异戊二烯已被证实与氧化应激反应有关、丙酮与糖尿病有关,而结核病患者糖尿病发病率较高;m/z值为72的挥发性有机物离子可能是2-丁酮,在Machel Phillips的研究中也发现了PTB的前11个生物标志物;m/z值为61的挥发性有机物离子可能是醋酸的质子化离子,在皮肤样品中被证实与结核病有关;m/z值为65、65.2和66的挥发性有机物离子分别是4-硝基苯酚的片段离子和周围的质子化阳离子。m/z值为67的挥发性有机物离子可以是吡咯或3-丁腈;m/z值为53的低峰值挥发性有机物离子可能是其他低浓度未知挥发性有机物的片段离子。这些挥发性有机化合物可能是结核病的潜在生物标志物。

研究讨论
本研究首次在大型队列中探讨了HPPI-TOF-MS呼吸组学数据检测对PTB的诊断价值。结果表明,所建立的BreaTB模型在区分PTB患者和对照人群方面具有良好的敏感度和特异度,分别为91.7%和93.0%。这意味着在线HPPI-TOF-MS呼吸组学分析方法可能是临床可行的诊断或筛查工具。
在过去的几十年里,基于呼吸组学的方法尚未应用于结核病的临床诊断,这在很大程度上是由于现有质谱仪的复杂性和高成本及传感器技术的局限性。与以往的PTB检测研究相比,本研究有若干优势。首先,基于挥发性有机物的PTB检测方法诊断准确率高,敏感度和特异度分别为91.7%和93.0%。此外,我们的研究在大样本患者队列中进行了测试。由于根据人口统计学和临床特征(年龄、性别和抗结核治疗)对参与者进行了分层,诊断结核病的性能基本一致。第三,使用非痰液样本是世界卫生组织大力提倡的结核病诊断方法。呼出气采样具有良好的临床可及性,特别是对某些难以收集到痰液的患者。第四,HPPI-TOF-MS检测呼吸样本的时间约为1 min,而从呼吸采样到获得检测结果的总时间成本约为5 min。
我们的研究也存在一些局限性。首先,离子的定性和代谢途径尚未明确。因此,基于呼吸组学的PTB检测方法虽然在临床数据上表现良好,但其逻辑和机制证据不足以使其具有临床说服力。进一步的GC-MS化学成分分析是我们未来工作的重点。幸运的是,许多研究已经证明了结核病患者呼出的挥发性有机物与结核分枝杆菌培养释放的气体之间的异同。例如,Phillips等在PTB患者的呼吸和培养物的上层空气中发现了常见的1-甲基-和环己烷和1,4-二甲基化合物。Purva等使用电脑计算方法提出了在结核分枝杆菌中烟酸甲酯、苯乙酸甲酯和对茴香酸甲酯等3种挥发性有机物的假定生物合成途径,并且在结核病患者的呼出气中也发现了烟酸甲酯。Kuntzel等检测并分析了17种不同分枝杆菌和对照菌株的顶空挥发性有机物。他们的结果均证明了根据挥发性有机物的代谢来从其他病原体中识别结核分枝杆菌的可行性。我们的团队还在努力寻找肺结核患者呼吸样本中的挥发性有机化合物与结核分枝杆菌培养的上层空气中的挥发性有机化合物之间的联系。其次,对照组只包含一小部分除结核病以外的肺部疾病患者样本。因此,在从其他肺部疾病中检测PTB时,需要进一步评估其性能。第三,我们的研究对象仅限于可能患有PTB的成年人,对于更迫切需要诊断工具的儿童及糖尿病或HIV患者和疑似肺外结核患者,也需要类似的独立验证研究。最后,这是在结核病专科医院进行的单中心研究,可能会限制研究结果的普适性。
综上所述,我们开发了一种用于PTB检测的呼吸组学模型:BreaTB,该模型在临床数据集上具有较高的诊断准确率,敏感度和特异度分别为91.7%和93.0%。基于呼吸组学的在线呼吸分析平台(如HPPI-TOF-MS)的操作简单、成本低廉,其PTB检测模型可能满足临床对结核病诊断的迫切需求,而不依赖于痰液;并可能在大规模人群筛查中发现更多的阳性患者,特别是在资源有限的地区会更需要这种平台。然而,需要更多的临床和基础研究来评估这种方法在复杂临床实践中的应用,比如将结核病和其他多种肺部疾病区分开来。另外,还需要更多的研究来确认结核病特异性的呼出气生物标志物并阐明其代谢途径。
注:除非特别声明,本公众号刊登的所有文章不代表《中国防痨杂志》期刊社观点。
本文来源于中国防痨杂志期刊社公众号
最后编辑于 2023-04-01 · 浏览 1526