保真度不是准确性：当线性可解函数无法匹配真实值时.pdfVIP

下载本文档

0
0
约1.41万字
约 9页
2026-03-09 发布于北京
举报

保真度不是准确性：当线性可解函数无法匹配真实值时.pdf

保真度不是准确性：

当线性可解函数无法匹配真实值时

JacksonEshbaugh

DepartmentofComputerScience

LafayetteCollege

eshbaugj@

摘要

本神经网络在函数逼近方面表现出色，但其复杂性经常掩盖了它们学习的是何种类型的函数。我们引入线性分数

，这是一个简单且可解释的诊断工具，用于量化回归网络输出能被线性模型模仿的程度。它定义为网络预测与

译训练好的线性替代模型之间的值，度量了线性解码能力：网络行为与结构简单的模型一致的程度。我们在合

中成(sin)和真实世界数据集（医疗保险、混凝土强度、加州房价）上评估了这一框架，使用特定于数据

2集的网络和替代模型。我们的发现表明高分数可靠地指示了与网络输出的一致性——但并不能保证相对于地面

v真理的准确性。这些结果突显了用替代模型保真度作为模型理解的代理的风险——尤其是在高风险回归任务中。

21介绍

6神经网络彻底革新了监督学习，但其内部复杂性往往使它们所学的函数变得不透明。实际上，它们表现为

5黑箱操作。这种缺乏可解释性的状况阻碍了信任、问责和透明度——尤其是在医疗保健、金融和刑事司法等高

:风险领域，理解模型的决策过程可能与准确性一样重要。虽然存在许多用于解读分类网络的技术——例如显著

i图、特征归因方法如LIME[13]和SHAP[8]，以及探测方法[1]——但回归网络的可解释性相对较少被探索，特

r别是在输入输出函数行为[8]方面。

一种常用的模型可解释性策略是用一个更简单且易于理解的替代模型（如线性模型或决策树）来近似复杂

的系统[3,15]。在分类设置中，替代模型通常应用于内部表示以评估每一层的信息线性可达性[1,6]。然而，

在回归任务中，针对网络的完整输入-输出函数的线性度评估的工作相对较少。

在本文中，我们提出了一种简单而强大的方法来探究训练回归网络的功能简洁性：我们将神经网络的预测

与拟合它的线性模型的预测之间的决定系数定义为一个指标。我们将其称为衡量网络功能的“线性可

解码”程度，也就是说，其输入-输出行为能被线性模型多好地近似。该指标提供了一个标量摘要，说明了线性

替代模型可以多准确地逼近网络的行为。

虽然许多机制可解释性研究集中在理解内部电路、表示或个别神经元[11,9]，我们的方法相反地将网络视

为黑盒，并调查它在输入输出层面实现了什么样的功能。在这个意义上，可以被视为对网络功能简单性的粗

略探测—类似于探查内部表示的精神，但应用到整个学习函数上。我们提出了一种探测训练神经网络功能简易

性的一般方法—这个问题对于任何关注模型透明度的领域都是相关的。虽然我们没有尝试逆向工程内部机制，

但我们方法可以通过表征所学模型的功能复杂性来为这类工作提供信息。

为了评估这种方法的实用性和局限性，我们在合成和真实世界回归数据集上进行了实验。对于每个数据集，

我们将一个基线线性模型、一个训练好的神经网络以及一个用于模仿该网络的线性替代模型进行比较。我们的

研究结果表明，提供了一种可靠的方法来衡量网络功能的线性可解码程度——但也揭示了对网络的高度保

真度并不总是能转化为在原始任务上的预测成功。

2相关工作

已经提出了几种不同的方法来解释神经网络的行为。一种常见的解释神经网络的方法涉及训练更简单的代

理模型——如线性回归器或决策树——以近似其行为。值得注意的是，Craven和Shavlik[3]引入了TREPAN算

保真度不是准确性：当线性可解函数无法匹配真实值时.pdfVIP