列线图或可作为线性模型解释工具

列线图或可作为线性模型解释工具
模型的可解释性是模型必备的操作之一,为此SHAP分析等模型解释性工具应运而生,收到大家的重视。逻辑回归、线性回归和COX等线性模型在机器学习算法中是非常常用的模型,这种模型具有自我解释性,通过线性方程中的变量系数(或优势比,即 OR 值)可以模型的预测结果是如何得到的。但是各个变量系数之间不可比的,比如,不能根据系数说一个变量比另外一个变量对结局更加具有影响,与SHAP分析中的shap值或者树形模型的变量重要性相比,是一种不足。目前还没有解决这方面的指标或者plot。
列线图,最初作为一种专为临床预测模型设计的辅助工具,旨在简化复杂概率计算过程,作为临床上使用的一种工具。但是因为不够精确等原因,很少在临床上使用,近年随着预测模型网页计算器的普及,列线图这方面的功能就更少用,几乎是已经处在被淘汰的边缘。然而,列线图有一个特点是比较有意思的,就是变量之间是可比的,线段的长短代表了变量的重要性,而且对于单个预测结果,我们可以从列线图中观察到各个变量的得分,也就是预测变量对结局变量的贡献,这不就是模型解释的精髓吗?
所以,通过对列线图进行适当的改进,或者不改动,就可以作为线性模型的模型解释工具。比如下图中,年龄的线段长度大于性别,可以认为年龄的重要性是高于性别的,也可以从刻度的降序升序看到变量与结局之间是正相关还是负相关,比如年龄就是负相关,这就类似SHAP分析中的全局性解释(蜂窝图),当预测个案的时候,变量当前值的得分也可以在列线图上反映出来(但是不够精确),这就是局部解释性。

列线图之所以能够比较变量间的重要性,是因为背后对线性模型的系数和变量值的乘积做了一定的标准化处理,具体来说,首先,获取各个变量系数和变量具体值乘积的最大值和最小值的差值(distance),然后将最大的distance对应的评分为100(线段最长), 其它变量按distance的比例决定各自的评分(线段的长度)。
列线图的广泛使用,也代表大家对这种处理是认可的。所以,根据这种处理发展出对线性模型解释的工具也是一种选择,毕竟大家对列线图已经很熟悉了,延续这种传统让读者更加容易理解,但是也不排除其它的算法的处理,毕竟列线图为了可视化的目的,做了其它的一些处理,一旦不需要列线图这种可视化的形式,就有更多的选择。