偏见缓解的激活导向：一种更安全 LLMs 的可解释方法.pdfVIP

下载本文档

3
0
约6.08千字
约 6页
2025-10-11 发布于北京
举报

偏见缓解的激活导向：一种更安全 LLMs 的可解释方法.pdf

偏见缓解的激活导向：一种更安全LLMs的可解释方法

ShivamDubey

IndianInstituteofTechnologyMadras

23f1002279@ds.study.iitm.ac.in

2025年8月12日

摘要

随着大型语言模型（LLMs）越来越多地融入社会系统，它们延续和放大有害偏见的风险

本成为了一个关键的安全问题。传统的减少偏见的方法通常依赖于数据过滤或事后输出审查，

译这将模型视为一个不透明的黑盒。在这项工作中，我们介绍了一种完整的端到端系统，该系

统使用机制可解释性技术来识别并在模型内部操作中主动减轻偏见。我们的方法包括两个主

中要阶段。首先，我们在模型的内部激活上训练线性“探测器”以检测各种偏见（例如性别、

1种族、年龄）的潜在表示。我们在gpt2-large上的实验表明，这些探测器可以近乎完美地

9识别有偏内容，揭示了在模型后期层中偏见表示最为突出。其次，我们利用这些发现通过对

1比模型对有偏和中立陈述的激活模式来计算“引导向量”。通过在推理过程中添加这些向量，

9我们可以实时主动引导模型生成过程远离产生有害、刻板或有偏内容。我们展示了这种激活

0.引导技术的有效性，表明它可以成功地将有偏完成导向更中性的替代方案。我们将我们的工

8作呈现为一个稳健且可重复的系统，提供了构建更安全和更有问责性的LLM的更为直接和

5可解释的方法。

i1介绍

大型语言模型（LLMs）在理解和生成类似人类的文本方面表现出色，推动了从搜索引擎到

创意写作助手等各种应用程序的发展。然而，这些模型是在庞大的互联网数据语料库上进行训

练的，其中包含广泛的社会偏见。因此，LLMs经常反映甚至放大与性别、种族、宗教和其他社

会类别相关的有害刻板印象[2]。这为它们的安全和道德部署构成了重大障碍。

解决此问题的传统方法包括对训练数据进行预处理以去除有偏内容，或在经过策划的价值

观一致的数据集上微调模型。虽然这些方法很有用，但通常还不够充分，并不能防止模型保留

预训练期间学习到的有偏关联。另一种常见的策略是在生成后过滤（事后过滤），它在模型输出

生成后对其进行调节。然而，这种方法未能解决模型本身内在偏差的根本原因。

在本文中，我们通过机制可解释性这个致力于理解神经网络内部机制的领域探索了一个更

为直接的解决方案。我们不是将模型视为黑盒，而是“向内看”以了解它如何以及在哪里表示诸

如偏见这样的抽象概念。我们的中心假设是，如果偏见作为模型激活中的可辨识模式存在，我

们可以在激活级别直接干预以减轻它。

我们提出一个完整的系统来实现这一假设。我们的贡献有三个方面：

1.我们展示了一种训练简单、线性“探测器”的方法，可以可靠地检测gpt2-large内部状

态中的偏差。

2.我们表明偏见的表示清晰度在模型中并不均匀，但在后期层中则显著更加明显。

3.我们利用这些发现来计算和应用“导向向量”，这在推理过程中成功引导模型的文本生成

远离有偏输出，提供了一种实时缓解策略。

我们提供了完整的实现作为开源工具，以促进进一步研究构建更透明和可控的语言模型。

2方法论

我们的系统由四个主要阶段组成：(1)生成目标数据集，(2)收集内部模型激活，(3)训练诊

断探测器以定位偏差表示，(4)计算和应用导向向量进行缓解。

偏见缓解的激活导向：一种更安全 LLMs 的可解释方法.pdfVIP

偏见缓解的激活导向：一种更安全 LLMs 的可解释方法.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档