针对ChatGPT的隐私提取攻击：多步骤越狱漏洞.docx

下载文档

0
0
约9.51千字
约 18页
2024-12-20 发布于山西
举报
版权申诉
保障服务

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

随着大型语言模型（LLM）的快速发展，许多下游的NLP任务都可以在友善的提示（即Prompt，是用户或程序向LLMAI提供的输入或查询）下得到很好的解决。尽管模型开发人员和研究人员在对话安全性方面做了大量工作以避免从语言模型生成有害文字，但要引导AI生成内容(AIGC，AI-GeneratedContent)造福于人类仍然具有挑战性。由于强大的LLM正在收集来自各个领域的现有文本数据（例如，GPT-3是在45TB的文本上训练的），公众很自然地怀疑隐私信息是否包含在训练数据中，以及这些大语言模型和他们的下游应用会带来什么隐私威胁。

本工作研究了OpenAI的模型API和由ChatGPT增强的NewBing的隐私问题，并表明应用程序集成的LLM可能导致比以往更严重的隐私威胁。本文通过实验证明并讨论了大语言模型的隐私影响。

0x01研究介绍

大型语言模型的快速发展使它们改变了现代自然语言处理的游戏规则。LLMs的主导生成能力将以前的任务范式改变为统一的文本生成任务，并持续提高LLMs在这些任务上的表现。此外，在适当的提示下，大语言模型甚至可以为零样本或少样本学习者来解决特定任务。值得注意的是，LLM的训练数据也会根据模型的大小和性能进行扩展。海量LLM的文本训练数据主要来自互联网，研究人员较少关注网络来源数据的数据质量和机密性。

如此大规模地收集个人数据引发了争论和担忧。例如，根据欧盟的通用数据保护条例(GDPR)，未经数据主体通知或同意就大量个人数据训练商业模型缺乏法律依据。因此，出于隐私考虑，意大利甚至禁止使用ChatGPT。不幸的是，语言模型的隐私分析仍然很少被探索并且仍然是一个未知的领域。

先前的工作研究了语言模型(LM)并称模型记住的训练数据会导致隐私数据泄露。然而，这些工作主要研究了GPT-2模型的变体，这些模型仅通过语言建模目标进行训练，目的是在给定当前上下文的情况下预测下一个单词。尽管这些开创性工作做出了努力，但最新的LLM与GPT-2之间仍然存在巨大差距。首先，LLM的模型大小和数据集规模比GPT-2大得多。其次，LLM实施更复杂的训练目标，包括指令调优和人类反馈强化学习（RLHF，ReinforcementLearningfromHumanFeedback）。第三，大多数LLM仅提供应用程序编程接口(API)，公众无法检查模型权重和训练语料库。

最后，目前的趋势是将各种应用程序集成到LLM中增强LLM的知识基础能力，以解决数学问题（ChatGPT+WolframAlpha）、阅读格式化文件（ChatPDF）以及使用搜索引擎响应查询（NewBing）。因此，目前使用的这些LLM中隐私泄露的程度仍然未知。

为了填补上述空白，在这项工作中对最先进的LLM进行了隐私分析，并研究了它们对隐私的影响。遵循先前工作的设置来彻底评估ChatGPT的隐私泄露问题，并表明先前的提示不足以从具有增强对话安全性的ChatGPT中提取个人信息。然后，提出了一种越狱（Jailbreak）和思想链(CoT，Chain-of-Thoughts)的提示组合，可以成功地从聊天GPT中提取私人信息。此外还研究了NewBing引入的隐私威胁，NewBing是ChatGPT和搜索引擎的集成。NewBing将基于检索的搜索引擎的范式转变为生成任务。除了模型记住的训练数据带来的隐私威胁外，新范式可能会引发更恶性的隐私威胁。在本文中展示了恶意攻击者几乎可以免费从NewBing中提取私人信息的可能性。

0x02背景

2.1LLM和语言模型的隐私攻击

LLM通过细粒度的训练技术和目标增加了模型大小和数据规模。以前，语言模型因其信息泄露问题而受到广泛批评。研究表明语言模型倾向于记住他们的训练数据，并且在特定提示下可能会恢复部分隐私信息。其中一种攻击是针对LM微调的成员推理，这些语言模型的私人微调数据容易受到提取攻击。另一方面，信息泄漏还是推理期间语言模型嵌入的问题。LLM从LM演变而来，采用各种防御措施来抵御恶意用例。OpenAI对GPT-4模型进行了微调，以拒绝对隐私信息的查询。目前尚不清楚安全增强的LLM是否继承了语言模型的隐私问题。在这项工作中将训练数据提取攻击扩展到LLM。

2.2基于提示的攻击

基于提示的方法（Prompt-based）在语言模型的开发中发挥着至关重要的作用。良性提示促进LLM解决不可见的任务。但是，另一方面，恶意提示会造成伤害和威胁。最

您可能关注的文档

文档评论（0）

百强名校试卷 + 关注: 实名认证

内容提供者

百强名校试卷

咨询Ta 进入空间

1亿VIP精品文档

更多 >

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞.docx