通过简单随机搜索对 GPT-4 进行对抗性攻击.pdf

通过简单随机搜索对 GPT-4 进行对抗性攻击.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AdversarialAttacksonGPT-4viaSimpleRandomSearch

MaksymAndriushchenko,maksym.andriushchenko@epfl.ch

TheoryofMachineLearningGroup,EPFL,Switzerland

December21,2023

1Summary

Inarecentannouncement,1OpenAImadethepredictedprobabilitiesoftheirmodelsavailableviaAPI.2

Inthisshortpaper,weusethemtoimplementanadversarialattackonthelatestGPT-4Turbo(gpt-4-

1106-preview)modelbasedonsimplerandomsearch.Weappendashortadversarialstringtoaharmful

requestthatisbydefaultrejectedbythemodelwithhighprobabilityduetosafetyorethicalconcerns.

Thisissufficientto“jailbreak”themodelandmakeitanswertheharmfulrequest.Weshowexamplesof

correspondingconversationswithoutandwithadversarialsuffixesinFigure1andFigure2.Interestingly,

iterativeoptimizationviasimplerandomsearchishighlyeffectiveasillustratedinFigure3:wecan

iterativelyincreasetheprobabilityofadesiredstartingtokenfrom≈1%toabove50%.Finally,we

discussimplicationsandpotentialdefensesagainstsuchattacks.Ourcodenotebookisavailableathttp

s:///max-andr/adversarial-random-search-gpt4.

Figure1:Request#1withoutandwithadversarialsuffix.OpenAIplaygroundlinksfortheseconversa-

tionsareavailableat/playground/p/gEEPak6gtzI4HiMnoKh

ksBc6?mode=chatand/playground/p/0IU3UOP70KoviepEI

jXGBvUU?mode=chat.

2Methodology

AlgorithmWeuseasimplerandomsearchalgorithm(Rastrigin,1963)customizedforthegiventask

ofjailbreakingalanguagemodel.Thealgorithmproceedsasfollows:

■Weappendasuffixofcertainlengthtoanoriginalrequest.

1/OpenAIDevs/status/1735730662362189872

2/docs/api-reference/chat/create#chat-create-logprobs

Figure2:Request#2withoutandwithadversarialsuffix.OpenAIplaygroundlinksfo

文档评论(0)

数据相关的文档 + 关注
实名认证
服务提供商

数学毕业,从事大数据工作十几年,涉及二三十个行业

1亿VIP精品文档

相关文档