2、基于函数调用的大模型越狱攻击-吴子辉.pdfVIP

2、基于函数调用的大模型越狱攻击-吴子辉.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

关于我

Aboutme

吴子辉

西安电子科技大学/西安智能系统安全重点实验室博士研究生,导师为高海昌教授

研究方向:

1.LLMSafetyandAlignment

2.AutomatedLLMRedTeaming

Github:/wooozihui

基于函数调用的大模型越狱攻击

什么是LLM函数调用

函数调用是OpenAI在2023年6月发布的功能;是指大

语言模型通过调用函数工具从而与外部环境交互的能力;

这一功能解决的问题:

1.让大模型能够通过函数工具与外部环境交互,如获取

天气,搜索等;(agent=LLM+记忆+规划+函数调用)

2.大模型的缺陷,如容易产生幻觉,无法进行精准计算

等,因此需要依靠外部工具来解决这些问题。

什么是LLM函数调用

机制:

函数调用过程通常可以分为4个步骤:

Step1:用户提供外部函数的声明文件,并通过prompt

触发需要调用的函数。

什么是LLM函数调用

图中展示了一个简单的获取天气的函数调

用声明

函数的名称

函数的功能描述

定义参数的名称,数据类型,

以及参数描述

作用:向模型说明函数的功能以及需要

返回的参数需求,并非实际执行代码。

什么是LLM函数调用

Step2:LLM生成函数执行所需的参数

用户提交函数声明并通过

提示词触发大模型调用相

关函数

函数声明

生成参数

什么是LLM函数调用

Step3:将大模型产生的参数输入到实际函数中进行执行

生成的参数

实际执行的函数

什么是LLM函数调用

Step4:将函数的返回值输入到大模型中,由大模型产生

最终结果,流程结束

“晴天”Response:北京现在是晴

LLM函数调用存在的安全性问题

早先的研究中[],研究者们发现函数调用

存在一些安全风险,主要包括:

1.任意参数注入:大模型会按照用户提供

或者希望的方式生成参数进行函数调用的执

行,这使得攻击者能够恶意注入参数,导致

如SQL注入之类的攻击。

[1]Pelrine,K.,AI,F.,Taufeeque,M.M.,Zając,M.,McLean,E.,Gleave,A.ExploitingNovelGPT-4APIs.

LLM函数调用存在的安全性问题

2.函数信息泄露:在攻击者要求模型提供函

数的具体信息时,模型不会拒绝。这可能导

致隐私泄露风险。

[1]Pelrine,K.,AI,F.,Taufeeque,M.M.,Zając,M.,McLean,E.,Gleave,A.ExploitingNovelGPT-4APIs.

越狱攻击尝试:

3.越狱攻击尝试:最后,研究者还尝试了利用函数调用对大模型

进行越狱攻击。希望通过调用一个“安全确认函数”来诱导模型

认为攻击者输入

文档评论(0)

分享资料 + 关注
实名认证
文档贡献者

所有文档来自网络,如有涉密,请私信删除

1亿VIP精品文档

相关文档