影像组学分析流程梳理
这段时间我主要在辅助相关人员开展影像组学分析,目前录用的文章影响因子在7分以上。在这段时间的影像组学分析工作中,我发现很多计划开展影像组学分析的人对影像组学分析的整个流程还不是很了解,所以撰写这篇文章希望能够帮助相关人员快速了解影像组学分析的各个环节。
影像组学研究范围涵盖肿瘤检出、鉴别诊断、病理分型和分级、肿瘤疗效预测与评价等各个领域,并均展现出了较高的临床价值,自其提出以来相关研究呈现出爆发式增长。影像组学一般可划分为数据准备、特征提取与筛选、模型构建、模型评价四个环节,部分研究还会将模型输出的分类概率作为评分与临床信息结合开展进一步分析(如cox回归分析等)。本文将在接下来的内容里对影像组学分析各个环节逐个进行讲解。
1 数据准备
1.1 样本收集
影像组学对医学影像的种类没有要求,其分析对象可以是超声、X线、CT、MRI或PET等医学影像。为了满足影像组学分析的再现性和可比性,制定一系列医学图像采集的规范,提供详细的成像协议(如成像的机器型号、成像参数、成像过程中使用到的造影剂等)是必要的。
1.2 ROI勾画
对于不同临床问题,ROI可以有多样化的选择,如整个的肿瘤区域、肿瘤生长的亚区域或栖息地、转移性病灶或者正常组织等。医学图像中常用的ROI分割包括手动分割和自动分割。肿瘤图像的自动分割算法种类繁多,常见的如阈值分割和水平集分割等。但这些自动分割算法的分割效果并不稳定,而且如何选择相适应的算法来应对不同的问题以及不同分割算法对后续分析的影响如何尚无统一标准。
目前,影像组学中最常用的方法是由经验丰富的影像科医生手动地分割ROI(如ITK-SNAP分割软件)。人工手动分割的精度高,但是人工手动分割时间和经济成本较高,而且容易受到主观因素的影响。因此,为避免不同医生分割导致的变异性,提高影像组学特征的稳定性,可选择部分图像由多个临床医生进行重复分割,然后通过一致性检验验证勾画的一致性。
2 特征提取与筛选
2.1 特征提取
影像组学的核心步骤就是提取高通量的特征来定量分析ROI的实质属性。提取的特征大致可以分为以下四类:
一阶统计特征:一阶统计特征是通过计算 ROI(肿瘤或其他区域)影像的灰度值获得的,通常包含最大值、最小值、均值、中值、范围、方差、峰度、偏度和熵等一阶统计量。一阶统计特征用于反映肿瘤内灰度强度的分布,反映肿瘤内的异质性。
形状大小特征:形状大小特征是反映肿瘤的形态、大小和规则度等信息的。例如肿瘤的长径、体积和表面积反映肿瘤的大小信息;肿瘤的椭球度反应其形状是否趋于球形;而紧实度反映肿瘤的形状是否规则,边缘是否规则等。
纹理特征:上述一阶统计特征和形状大小特征反映了影像中易于被视觉感知的低维信息(如亮度和形状等)。不同于一阶统计特征以及形状特征,纹理特征的获得主要通过几个纹理矩阵:如灰度相关矩阵(Gray level dependence matrix, GLDM)、灰度区域大小矩阵(Gray level size zone matrix, GLSZM)、灰度共生矩阵(Gray level co-occurrence matrix, GLCM)、灰度游程矩阵(Gray level run length matrix, GLRLM)和邻域灰度差分矩阵(Neighbouring gray tone difference matrix, NGTDM)等,这些特征能够量化肿瘤内部的纹理模式或组织分布等难以被视觉简单感知的信息。
小波特征:尽管上述三种类型的特征分别从低维和高维方面反映了肿瘤的视觉信息和纹理模式,但这些信息量是有限的。为了获得不同频域的信息,在特征提取中还会应用到小波变换,其将原始的肿瘤影像分解到不同的频域中,之后再在各个小波图像中分别提取上述三种类型的特征。小波变换能够得到多频域多尺度的影像信息,对于难以用简单的肿瘤影像视觉特征进行描述的临床问题,小波特征这种高维抽象特征可能发挥出不同的作用,捕捉到不易被视觉感知的临床信息。
除了上述四种特征外,近来也有研究者通过预训练的深度学习模型对医学影像进行特征提取。
2.2 特征筛选
一方面通过特征提取得到的特征数量可能有几百到几万不等,但并不是每一个特征都与要解决的临床问题相关联;另一方面在实践中由于特征数量相对较多而样本数量较少,容易导致随后的模型出现过拟合的现象。所以在影像组学分析中通常需要对提取的特征进行选择。特征选择是根据某些评估准则,从特征集中直接选取合适的子集,或者将原有的特征经过线性/非线性组合,生成新的特征集,再从新特征集中选取合适的子集过程。常用的特征选择方法包括过滤法、包装法以及嵌入法三种 :
过滤法:根据特征和分类标签的相关性选择特征。基于过滤器的方法一般是通过计算互信息、相关系数和单变量分析(如Mann-Whitney U 检验和卡方检验)等来实现的。
包装法:根据特征预测效果评分选择特征,通常与指定的分类器相结合。它能够选择预测能力最高的特征,并删除对预测贡献最小的特征,直到选择了指定的特征个数。
嵌入法:根据模型训练过程中的权值系数选择特征。这种方法有一个非常典型的例子,即最小绝对收缩和选择算子(Least absolute shrinkage and selection operator, Lasso)算法。该方法的基本思想是通过构造设计一个惩罚函数,将回归系数进行压缩使得一些系数等于零,进而获得可解释的模型。
3 模型构建
在开展影像组学分析的过程中,常用的分类、回归以及聚类方法都可以使用,我比较常用的是随机森林和梯度提升树算法,这两种算法也是目前各大人工智能相关竞赛中首选的算法。
3.1 随机森林
随机森林算法是基于分类回归树的经典机器学习算法。其通过构建大量分类回归树,再汇总所有树对测试或预测样本结果的方式获取最终结果,如研究问题是分类问题则最终结果为占多数的分类树预测类别,如研究问题是回归问题则最终结果为所有回归树预测结果的平均。随机森林的投票机制大大提高了随机森林模型的预报准确度,有效防止了过拟合等回归算法存在的常见问题。
3.2 梯度提升树
梯度提升树,作为决策树模型中的Boosting类别,在各个标准的分类和回归任务上都取得了十分优秀的结果。梯度提升树模型(GBDT, Gradient Boosting Machine)是一个前向加法模型。其核心思想是在每轮迭代的过程中生成新的决策树来学习上一轮模型预测的“残差”,最终预测结果由每一轮经过拟合的决策树的预测结果相加得到。
4 模型评价
4.1 ROC曲线
在对预测模型的性能进行评估时,一般都使用受试者工作特性(Receiver operating characteristic, ROC)曲线分析方法,通过计算可以得到 ROC 曲线下的面积(Area under curve, AUC)和预测模型的准确性、敏感性和特异性、阳性预测值和阴性预测值等。
4.2 校准曲线
校准曲线可以评估模型结果和观察结果间的一致性,衡量模型的整体表现。
4.3 决策曲线
决策曲线是一种评估临床预测模型、诊断试验和分子标记物的简单方法。传统的诊断试验指标如:敏感性,特异性和ROC曲线下面积仅测量预测模型的诊断准确性,未能考虑特定模型的临床效用,而决策曲线的优势在于它将患者或决策者的偏好整合到分析中。这种理念的提出满足了临床决策的实际需要,在临床分析中的应用日益广泛。
5 其它
以上就是影像组学分析主要环节的介绍了,每个环节均可以视情况选择不同的方法,并可以根据需要与其他方法(如基因组学、深度学习、集成学习等)进行结合。目前我的研究内容主要包括各种临床数据、影像数据以及基因数据的分析(如影像组学、生存分析以及差异基因表达分析等),同时也能够开发移动应用、平台系统等软件产品,大家有相关需求的话欢迎与我联系。
最后编辑于 2022-10-09 · 浏览 3406