基于医学数据预测的分层变量重要性与统计控制.pdfVIP

基于医学数据预测的分层变量重要性与统计控制.pdf

基于医学数据预测的分层变量重要性与统计控制

JosephPaillard,AntoineCollas,DenisA.Engemann,and

BertrandThirion

RochePharmaResearchEarlyDevelopment,F.Hoﬀmann-LaRocheLtd,

Basel,Switzerland

UniversitéParis-Saclay,Inria,CEA,Paris,Palaiseau,France

Correspondance:joseph.paillard@

本摘要近期的机器学习进展极大地扩展了医学成像预测方法的范围。然而，

译复杂模型的可解释性仍然是一个挑战，这限制了它们在医疗应用中的实用

中性。最近，提出了与模型无关的方法来衡量条件变量重要性，并且能够处

理复杂的非线性模型。然而，在处理高度相关数据时，这些方法往往缺乏

1效力，这是医学成像中常见的问题。我们介绍了分层-CPI（Hierarchical-

4CPI），这是一种与模型无关的变量重要性度量方法，它将推理问题视为发

2现一组联合预测结果的变量的问题。通过沿着层级树探索子组，它保持了

8计算上的可行性，同时也能控制显式的家族错误率。此外，我们采用基于

0树的重要性分配机制解决了在高度相关条件下条件重要性消失的问题。我

8们将分层-CPI与最先进的变量重要性方法进行了基准测试。其有效性已在

0两个神经成像数据集中得到验证：从MRI数据（ADNI数据集）中分类痴

2呆诊断以及对EEG数据（TDBRAIN数据集）进行伯杰效应分析，识别

:出生物学上合理的变量。

rKeywords:统计学，神经影像学，可解释的机器学习

1介绍

在医学成像领域，机器学习有望促进临床结果的预测，参见例如[1,2,

3,4,5,6]。然而，这些进展也带来了主要的可解释性挑战。一个关键问题

是如何从超出普通最小二乘法的预测模型中推断特征的重要性，以容纳大量

预测变量并表示特征和结果之间的非线性关联。因此，开发一种在模型无关

的方式下测量变量重要性的方法是至关重要的，以便获得临床见解和发展生

物标志物，例如，使用脑部图像诊断阿尔茨海默病（AD）基于现有的队列，

或来自临床试验的数据[7,8,2,6]。然而，为了开发值得信赖的方法，了解

2J.Paillardetal.

其理论保证至关重要，特别是关于产生错误发现的风险，这可以通过家庭总

误差率（FWER）来捕捉（参见例如[9,10]).Onlyfewvariableimportance

methodsgive

更多 >