- 3
- 0
- 约6.08千字
- 约 6页
- 2025-10-11 发布于北京
- 举报
偏见缓解的激活导向:一种更安全LLMs的可解释方法
ShivamDubey
IndianInstituteofTechnologyMadras
23f1002279@ds.study.iitm.ac.in
2025年8月12日
摘要
随着大型语言模型(LLMs)越来越多地融入社会系统,它们延续和放大有害偏见的风险
本成为了一个关键的安全问题。传统的减少偏见的方法通常依赖于数据过滤或事后输出审查,
译这将模型视为一个不透明的黑盒。在这项工作中,我们介绍了一种完整的端到端系统,该系
统使用机制可解释性技术来识别并在模型内部操作中主动减轻偏见。我们的方法包括两个主
中要阶段。首先,我们在模型的内部激活上训练线性“探测器”以检测各种偏见(例如性别、
1种族、年龄)的潜在表示。我们在gpt2-large上的实验表明,这些探测器可以近乎完美地
v
9识别有偏内容,揭示了在模型后期层中偏见表示最为突出。其次,我们利用这些发现通过对
1比模型对有偏和中立陈述的激活模式来计算“引导向量”。通过在推理过程中添加这些向量,
0
9我们可以实时主动引导模型生成过程远离产生有害、刻板或有偏内容。我们展示了这种激活
0.引导技术的有效性,表明它可以成功地将有偏完成导向更中性的替代方案。我们将我们的工
8作呈现为一个稳健且可重复的系统,提供了构建更安全和更有问责性的LLM的更为直接和
0
5可解释的方法。
2
:
v
i1介绍
x
r
a
大型语言模型(LLMs)在理解和生成类似人类的文本方面表现出色,推动了从搜索引擎到
创意写作助手等各种应用程序的发展。然而,这些模型是在庞大的互联网数据语料库上进行训
练的,其中包含广泛的社会偏见。因此,LLMs经常反映甚至放大与性别、种族、宗教和其他社
会类别相关的有害刻板印象[2]。这为它们的安全和道德部署构成了重大障碍。
解决此问题的传统方法包括对训练数据进行预处理以去除有偏内容,或在经过策划的价值
观一致的数据集上微调模型。虽然这些方法很有用,但通常还不够充分,并不能防止模型保留
预训练期间学习到的有偏关联。另一种常见的策略是在生成后过滤(事后过滤),它在模型输出
生成后对其进行调节。然而,这种方法未能解决模型本身内在偏差的根本原因。
在本文中,我们通过机制可解释性这个致力于理解神经网络内部机制的领域探索了一个更
为直接的解决方案。我们不是将模型视为黑盒,而是“向内看”以了解它如何以及在哪里表示诸
如偏见这样的抽象概念。我们的中心假设是,如果偏见作为模型激活中的可辨识模式存在,我
们可以在激活级别直接干预以减轻它。
我们提出一个完整的系统来实现这一假设。我们的贡献有三个方面:
1
1.我们展示了一种训练简单、线性“探测器”的方法,可以可靠地检测gpt2-large内部状
态中的偏差。
2.我们表明偏见的表示清晰度在模型中并不均匀,但在后期层中则显著更加明显。
3.我们利用这些发现来计算和应用“导向向量”,这在推理过程中成功引导模型的文本生成
远离有偏输出,提供了一种实时缓解策略。
我们提供了完整的实现作为开源工具,以促进进一步研究构建更透明和可控的语言模型。
2方法论
我们的系统由四个主要阶段组成:(1)生成目标数据集,(2)收集内部模型激活,(3)训练诊
断探测器以定位偏差表示,(4)计算和应用导向向量进行缓解。
2.1数据
您可能关注的文档
- CVCM 轨道电路预测性维护的预判故障诊断使用深度神经网络.pdf
- 空间轨迹:通过空间-时间理解增强 VLA 模型.pdf
- 构想生成式人工智能在制图和地图制作中的应用.pdf
- 对预请求乘客等待时间在拼车系统中可预测性和可解释性的初步观察.pdf
- 具有过时信道状态信息的下行链路 SDMA 网络的改进 SINR 近似值.pdf
- LyS 在 SemEval 2025 任务 8 中:面向表格问答的零样本代码生成.pdf
- QAMRO:质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdf
- 缓解大型语言模型中反事实解释的流行偏差.pdf
- 针对电力电网的负载改变攻击:使用 GB-36 母线系统公开数据集的一个案例研究.pdf
- UNISTFORMER: 统一的时空轻量级变换器用于高效的基于骨架的动作识别.pdf
- 安全语义,不安全解释:解决大型视觉-语言模型中的隐式推理安全性问题.pdf
- EGGCodec:一种用于 EGG 重建和 F0 提取的稳健神经编码器-解码器框架.pdf
- 机器人超声脊柱采集中的形状补全与实时可视化.pdf
- Munsit 在 NADI 2025 共享任务 2:使用弱监督预训练和持续监督微调推进多方言阿拉伯语 ASR 的边界.pdf
最近下载
- 2025年江苏南京金陵中学特长生选拔数学试题真题(含答案详解).docx VIP
- 智能茶园管理与承包服务合作协议.docx VIP
- 汽车零部件行业市场前景及投资研究报告:智驾平权,AI智能涌现,智驾VLA,世界模型.pdf VIP
- 2024年南京一中数理人才班自主招生数学试卷真题(答案详解) .pdf VIP
- 人教A版高中数学选择性必修第2册全册教学课件(2025年7月修订).pptx
- 过程确认质量管理体系-过程确认指南.ppt VIP
- 一种改良MS培养基及其制备方法与应用.pdf VIP
- 2025年南京一中化学特长生试卷及答案.docx VIP
- 中医穴位贴敷基层临床应用技术操作规范.docx VIP
- 环境工程仪表及自动化项目六 简单控制系统的组成课件.ppt VIP
原创力文档

文档评论(0)