基于大语言模型的显式漏洞生成:超越对抗攻击的研究-计算机科学-大语言模型-代码生成-提示工程-人工智能安全.pdf

基于大语言模型的显式漏洞生成:超越对抗攻击的研究-计算机科学-大语言模型-代码生成-提示工程-人工智能安全.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于大语言模型的显式漏洞生成:超越对抗

攻击的研究

AhmetEmirBosnakSahandMoslemiMayasahLami

BilkentUniversityBilkentUniversityBilkentUniversity

TurkeyTurkeyTurkey

emir.bosnak@.trsahand.moslemi@.trm.lami@.tr

AnilKoyuncu

BilkentUniversity

Turkey

本anil.koyuncu@.tr

中摘要—大型语言模型(LLMs)越来越多地被用作代码助也可能通过幻觉逻辑或对安全性敏感操作的不正确假

2手,但当明确要求生成不安全的代码时它们的行为仍不清楚。虽设引入漏洞~[4]。Perry等人~[5]发现使用AI助手

v然先前的研究侧重于无意中的漏洞,本研究考察了一种更直接的的开发者经常产生含有更多安全缺陷的代码——尽管

4

5威胁:开源LLM在提示下生成脆弱代码。我们提出了一种双重他们对自己的安全性表达出更大的信心。

0实验设计:(1)动态提示,在结构化的模板中系统地改变漏洞类

0型、用户角色和提示措辞;以及(2)反向提示,从真实的脆弱代当前的大量研究集中在两个主要威胁面上:(1)在

1

.码样本中导出自然语言提示。我们使用静态分析评估了三个70通用提示过程中引入的意外漏洞~[6],[7],以及(2)旨

7

0亿参数的开源模型(Qwen2,Mistral,Gemma),以评估生成在通过间接指令操纵大语言模型生成不安全代码的对

5漏洞的存在和正确性。我们的结果显示所有模型都经常生成请求抗性提示技术~[8],[9]。虽然最近的越狱和红队研究显

2的漏洞,尽管性能差异显著。Gemma在动态提示下的内存漏洞

:示可以通过直接请求迫使大型语言模型生成有害或脆

v正确率最高(例如缓冲区溢出为98.6%),而Qwen2则在所有

i弱的代码~[10]–[13],但这些工作主要评估的是模型是

x任务中表现最均衡。我们发现专业角色(如“DevOps工程师”)

r比学生角色更一致地获得更高的成功率,并且直接和间接措辞的否遵从,而不是它们在这种请求下的行为。

a

效果取决于提示策略的不同而反转。漏洞复现准确性随着代码复这种直接交互模式,用户明确要求不安全的代码,

杂性的增加呈现非线性模式,在适度范围内达到峰值。我们的研可以说更具有代表性地反映了现实中的误用场景,特别

究结果揭示了LLMs依赖于模式回忆而非语义推理,这在其安

是涉及学生、初学者开发者或本地模型未受监督使用的

全对齐方面造成了显著的盲点,特别是对于被表述为可信的职业

情况。尽管这种方式在实际应用中很有意义,但这种交

任务的请求。

IndexTerms—大型语言模型,代码生成,安全漏洞,提互风格大多被忽视了。Tony等人[14]指出了缺乏针对

示工程,人工智能安全现实提示风格的系统性评估。Brokman等人[15]以及

Basic和Giaretta[16]报告称,大多数评估集中在间接

I.介绍对抗性提示或通用代码质量上,对直接、与安全相关的

LLMs正在成为软件开发工作流程中的重要工具,请求关注较少。Le

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档