ChatGPT：是崛起的AI攻击之矛，还是万能的网络安全之盾.docx

下载文档

0
0
约4.49千字
约 10页
2025-01-14 发布于山西
举报
版权申诉
保障服务

ChatGPT：是崛起的AI攻击之矛，还是万能的网络安全之盾.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ChatGPT：是崛起的AI攻击之矛，还是万能的网络安全之盾

什么是ChatGPT和大语言模型

ChatGPT是由美国科技创业公司OpenAI开发的人工智能聊天机器人，最初是基于GPT-3大语言模型，使用深度学习来产生类似人类的文本，目前ChatGPT底层的大语言模型已经进化到GPT-4。

大语言模型指在基于大量文本的数据上训练模型，训练用的语料样本最初是从开放的互联网获取，涵盖了各种类型的网页内容，包括学术论文、社交媒体帖子、博客、新闻文章等大量的数据。

而这些大量的数据在摄入时，无法完全过滤所有冒犯性或不准确的内容，因此有争议的内容很可能包括在其模型中。该模型通过分析不同词语之间的关系，并将其转化为概率模型，然后可以给模型一个提示，它将根据其模型中的单词关系提供一个在概率上最接近用户期待的答案。

ChatGPT的数据边界问题

ChatGPT现在已经基本定义了一种新的AI应用的工业范式，即人机交互使用Chatbot聊天模式，后端用大语言模型进行意图理解和内容生成，再结合API实现多模态应用。

既然是聊天，那么就需要有输入和输出。输入就是“喂”给模型的数据，可以是向ChatGPT提出的问题，也可以是向其提供的数据资料；输出则是经过模型计算和API调用后利用模型生成接近用户期待的内容和格式的结果。

这样在用户与ChatGPT对话的过程中，就会把用户的数据上传给ChatGPT的服务器，根据ChatGPT官方的文档确认，用户与ChatGPT之间的对话数据是会被上传到OpenAI公司进行存储，并且将对话数据中的用户个人信息（如姓名、地址、电话等）进行脱敏处理后，可能会被用于模型后续的迭代训练，以提升产品效果，但这个过程并不会自动被执行。

ChatGPT目前没有提供类似GoogleAssistant、Siri、AmazonAlexa和MicrosoftCortana这类聊天机器人应用中的“隐私模式”或“无记录模式”。在这种模式下，用户可以保证自己的对话内容和个人信息不会被记录或收集。ChatGPT的用户如果不想其数据被利用于ChatGPT的训练迭代，需要通过向OpenAI提交申请。

介于ChatGPT目前还处于未公开其技术细节和数据处理流程的状态，其对用户数据的使用也没有得到第三方机构进行审计和监管，如JPMorgan、Amazon、Verizon、BankofAmerica等一些企业已经禁止其员工在工作时使用ChatGPT，以防止敏感的企业数据泄露，甚至如某些国家已经官方宣布基于数据隐私安全的考虑，禁止使用ChatGPT。

观点1：从政策和技术两方面保证类ChatGPT应用的数据边界安全。

面对上述的ChatGPT数据边界问题，目前产品还不能满足保护数据安全性的相关需求，需要通过加强相关的安全合规性立法、进行模型私有化部署和对模型数据使用过程进行审计等方法来解决这个问题。

以OpenAI的ChatGPT为例，ChatGPT无法满足GDPR和《个人信息保护法》中关于个人信息隐私保护的相关需求，如用户无法行使对其个人数据的“删除权”，这不仅是ChatGPT没有开放这个功能，在技术上当个人数据经过处理进入数据集后，往往就丢失了溯源能力，也很难再被单独找出来删除。对于部署在国外的服务器上的类ChatGPT的大语言模型应用来说，更是无法满足《数据安全法》对数据不出网、不出境和能够进行有效管控的要求。

从技术角度考虑，如果要满足大语言模型应用的数据安全合规性，需要在以下几个方面做出改进：

模型私有化部署：私有化（即本地化）部署是满足企业用户在使用大语言模型应用时数据不出网、不被滥用的主要方法之一，这个部署包括了提供可以进行模型微调（Fine-Tuning）在内的算力环境。由于大语言模型的生成效果也取决于训练时的语料数据，在专业性很强的垂直领域要达到更好的生成效果，也是需要提供语料来优化模型，因此大语言模型的私有化部署是让数据在企业内形成内部循环来持续优化模型的可行方法。

对于云端提供的大语言模型中数据的使用过程进行第三方审计：可以从数据的输入、存储和使用等环节提供第三方的系统来进行数据安全合规性的监控和审计。如通过调用大语言模型提供的API来自己提供Chat接口，并对聊天过程中输入的数据进行合法合规性审计；在线存储的用户对话数据必须进行加密存储；对被用于模型迭代更新的用户数据进行合规性审计后才可以使用。

大语言模型赋能安全攻击

很多文章已经讨论过大语言模型被用于网络渗透攻击的例子，主要包括以下6个方向：

①通过绕过ChatGPT的防御规则，来欺骗其通过大语言模型生成恶意代码、生成攻击脚本；

②使用大语言模型快速批量生成社会工程攻击的文本，如钓鱼邮件或者根据用户信息生成攻击字典；

③对开源代码