GAF-守护者：大型语言模型中风险管理与治理的代理框架-计算机科学-大语言模型-风险检测-AI安全性.pdf

下载文档

0
0
约1.82万字
约 11页
2025-07-26 发布于中国
举报
版权申诉
保障服务

GAF-守护者：大型语言模型中风险管理与治理的代理框架-计算机科学-大语言模型-风险检测-AI安全性.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

GAF-守护者：大型语言模型中风险管理与治理的代理框架

SeshuTirupathiDhavalSalwalaElizabethDalyIngeVejsbjerg

IBMResearchEuropeIBMResearchEuropeIBMResearchEuropeIBMResearchEurope

Dublin,IrelandDublin,IrelandDublin,IrelandDublin,Ireland

2025年7月18日

ABSTRACT

本

译随着大型语言模型（LLMs）在各个领域中的应用日益广泛，其广泛应用需要严格的监控以

防止意外的负面影响并确保稳健性。

中此外，必须设计LLM以符合人类价值观，如防止有害内容和确保负责任地使用。

2当前用于生产中监控LLM的自动化系统和解决方案主要集中在与LLM相关的特定问题上，

6例如幻觉等，很少考虑具体用例的需求和用户偏好。

8本文介绍了一种名为GAF-Guard的新颖代理框架，该框架将用户、用例和模型本身置于中

2心位置，以进行LLM治理。

.该框架设计用于检测和监控基于LLM的应用程序部署相关的风险。

0该方法建模了能够识别风险、激活风险检测工具并在特定用例中促进持续监控和报告的自主

5代理，从而增强AI安全性和用户期望。

:代码可在/IBM/risk-atlas-nexus-demos/tree/main/gaf-guard获

i取。

1介绍

大型语言模型（LLMs）的治理因其规模和快速发展而面临重大挑战。与AI模型相关的传统风险，如数据偏

见和模型可解释性问题，因特定于LLMs的新担忧而变得更加复杂，包括虚假信息和版权侵权[1]。

LLM的一般性质使得仅从LLM的角度孤立地进行风险评估变得困难。相反，需要一种更细致的方法来考虑

这些模型的使用环境。如[1]中所述，用例的清晰度在定义风险和评估LLM性能方面起着关键作用。

为了说明这一点，[1]中引用了两个示例：在执法与教育环境中部署大语言模型，以及在医疗保健中用于内部

生产效率的聊天机器人与直接与患者互动的聊天机器人的区别。通过分析这些差异，我们可以更好地了解如

何减轻与大语言模型相关的风险，并确保其安全和负责任地使用。

为了进一步强调这一点，我们引用了麦肯锡[2]、Mindforge联盟[3]以及UKFinance和埃森哲[4]的三项独

立研究。这些研究各自调查了在软件开发生命周期用例背景下与生成式AI相关的风险。

识别的风险总结如表1所示。三项研究中识别出的风险存在显著重叠，但也有一些差异，其中最终用户能够

为相关用例提供所需的细微差别。这种细粒度和用例的相关性强调了不仅要考虑与生成式AI相关的总体风

险集合，还要考虑可以影响其采用和使用的独特情境因素（如用户和用例）。

APREPRINT-2025年7月18日

McKinseyMindforgeUKFinance

•知识产权侵权

•知识产权侵权•恶意使用•知识产权侵权

•恶意使用•安全威胁•安全威胁

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

GAF-守护者：大型语言模型中风险管理与治理的代理框架-计算机科学-大语言模型-风险检测-AI安全性.pdf