2、基于函数调用的大模型越狱攻击-吴子辉.pdfVIP

下载本文档

0
0
约7.36千字
约 32页
2025-12-23 发布于浙江
举报
版权申诉

2、基于函数调用的大模型越狱攻击-吴子辉.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于我

Aboutme

吴子辉

西安电子科技大学/西安智能系统安全重点实验室博士研究生，导师为高海昌教授

研究方向:

1.LLMSafetyandAlignment

2.AutomatedLLMRedTeaming

Github:/wooozihui

基于函数调用的大模型越狱攻击

什么是LLM函数调用

函数调用是OpenAI在2023年6月发布的功能；是指大

语言模型通过调用函数工具从而与外部环境交互的能力；

这一功能解决的问题:

1.让大模型能够通过函数工具与外部环境交互，如获取

天气，搜索等；(agent=LLM+记忆+规划+函数调用)

2.大模型的缺陷，如容易产生幻觉，无法进行精准计算

等，因此需要依靠外部工具来解决这些问题。

什么是LLM函数调用

机制:

函数调用过程通常可以分为4个步骤:

Step1:用户提供外部函数的声明文件，并通过prompt

触发需要调用的函数。

什么是LLM函数调用

图中展示了一个简单的获取天气的函数调

用声明

函数的名称

函数的功能描述

定义参数的名称，数据类型，

以及参数描述

作用：向模型说明函数的功能以及需要

返回的参数需求，并非实际执行代码。

什么是LLM函数调用

Step2:LLM生成函数执行所需的参数

用户提交函数声明并通过

提示词触发大模型调用相

关函数

函数声明

生成参数

什么是LLM函数调用

Step3:将大模型产生的参数输入到实际函数中进行执行

生成的参数

实际执行的函数

什么是LLM函数调用

Step4:将函数的返回值输入到大模型中，由大模型产生

最终结果，流程结束

“晴天”Response:北京现在是晴

天

LLM函数调用存在的安全性问题

早先的研究中[]，研究者们发现函数调用

存在一些安全风险,主要包括:

1.任意参数注入:大模型会按照用户提供

或者希望的方式生成参数进行函数调用的执

行，这使得攻击者能够恶意注入参数，导致

如SQL注入之类的攻击。

[1]Pelrine,K.,AI,F.,Taufeeque,M.M.,Zając,M.,McLean,E.,Gleave,A.ExploitingNovelGPT-4APIs.

LLM函数调用存在的安全性问题

2.函数信息泄露:在攻击者要求模型提供函

数的具体信息时，模型不会拒绝。这可能导

致隐私泄露风险。

[1]Pelrine,K.,AI,F.,Taufeeque,M.M.,Zając,M.,McLean,E.,Gleave,A.ExploitingNovelGPT-4APIs.

越狱攻击尝试:

3.越狱攻击尝试:最后，研究者还尝试了利用函数调用对大模型

进行越狱攻击。希望通过调用一个“安全确认函数”来诱导模型

认为攻击者输入

您可能关注的文档

文档评论（0）

分享资料 + 关注: 实名认证

文档贡献者

所有文档来自网络，如有涉密，请私信删除

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2、基于函数调用的大模型越狱攻击-吴子辉.pdfVIP