百度大模型安全解决方案PPT.docx

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

j百度智能云

大模型安全解决方案分享

01百度对大模型安全的理解和观点

从多角度剖析AICG业务所面临的安全挑战与潜在威胁

\j百度智能云大模型应用面临的安全挑战

\j百度智能云

在构建大模型服务时,百度将大模型全生命周期划分为三个关键阶段:训练阶段、部署阶段、以及业务运营阶段,在各业务阶段面临的安全风险、以及挑战各有不同:

大模型训练阶段.企业自有数据如何在保障数据

大模型训练阶段.

企业自有数据如何在保障数据安全与隐私的前提下,实现大模型的精调、推理、共建?

大模型部署阶段.

大模型部署时如何防止模型窃取与泄漏?

大模型服务在运营阶段,如何保障接口安全、投毒反馈等黑产攻击?如保障提问内容、输出内容安全?

010203

大模型部署大模型训练攻击者可能通过攻击云服务器来窃取模型及其数据,或者反向工程模型参数以训练新模型。大模型在部署过程中可能受到对抗性攻击的威

大模型部署

大模型训练

攻击者可能通过攻击云服务器来窃取模型及其数据,或者反向工程模型参数以训练新模型。

大模型在部署过程中可能受到对抗性攻击的威胁,如对抗性样本攻击等

部署的模型在传输和存储过程中可能被篡改

如何建立访问控制机制,确保可信用户或系统

可以访问模型和相关资源、以及AK/SK防滥用

在训练阶段,确保原始数据的隐私和机密性是至关重要!

公有云场景

在云上大模型训练、精调、推理时,如何解决敏感数据上云后的数据隐私保护?

私有化共建

在大模型的私有化共建时,可能涉及多个数据所有者之间的数据共享与计算?

在大模型运营阶段,围绕企业的前置业务环节容易出现各类安全风险大模型业务运营阶段的安全挑战

在大模型运营阶段,围绕企业的前置业务环节容易出现各类安全风险

账号风险

企业自有账号体系出现批量注册账号/盗号/撞库等账号攻击风险。

业务风险

薅羊毛/权益侵占/机器作弊/浪费审核资源等围绕前置业务行为的风险

Chatgpt在4月初,大规模封禁各类违规注册账号

百度文心一言/千帆申请存在薅羊毛等前置业务风险

百度文心一言/千帆申请存在薅羊毛等前置业务风险

针对“提问行为”存在的安全挑战大模型业务运营阶段

针对“提问行为”存在的安全挑战

在大模型提问时,黑产等不发分子围绕提问接口发起AIGC盗爬/垃圾提问/接口攻击/频控突破/资源侵占等攻击行为,针对大模型

AIGC

AIGC盗爬

输出结果,黑灰产可以发起投毒反馈、恶意反馈等攻击行为

接口攻击

接口攻击

垃圾提问

垃圾提问/资源消耗

投毒

投毒/恶意反馈

针对“提问内容”存在的安全挑战大模型业务运营阶段

针对“提问内容”存在的安全挑战

在与大模型交互提问时,用户输入的prompt也能存在各类违法违规内容风险,主要涵盖如下几类:

涉黄

涉黄

涉赌

涉赌

涉毒

涉毒

涉政

涉政

涉恐

涉恐

涉爆

涉爆

低俗

低俗/辱骂

恶意代码

恶意代码

针对“提问内容”存在的安全挑战大模型业务运营阶段

针对“提问内容”存在的安全挑战

在与大模型交互提问时,用户输入的prompt属于提示注入攻击。

提示注入是近期对大模型产生较大影响的新型漏洞,特别是对于那些采用提示学习方法的模型而言。注入恶意指令的提示可以通过操纵模型的正常输出过程以导致大语言模型产生不适当、有偏见或有害的输出

越狱攻击(直接)提示泄漏(直接)目标劫持注入(直接)指代

越狱攻击(直接)

提示泄漏(直接)

目标劫持注入

(直接)

指代/主语缺省

(直接)

网页

网页/文档/图像载体

(间接)

大模型业务运营阶段的安全挑战

针对输出内容存在的安全挑战“AIGC

针对输出内容存在的安全挑战

围绕大模型生成内容,具有一定的随机、不可控的情况,容易出现违规内容、歧视偏见、隐私泄漏、内容侵权等诸多风险,如下所示:

AI生成的内容可能包含暴力、

色情、煽动性、低俗、或其他违反法律法规的内容

违法违规内容

违法违规内容

性别、种族、地域、信仰、年

龄等各方面偏见、歧视类

偏见/歧视类

偏见/歧视类

生成不准确、拥有误导性、干

扰性等虚假信息

误导/虚假信息

误导/虚假信息

利用AIGC生成模仿受版权保

护的作品等

内容侵权

内容侵权

可能涉及个人隐私,如生成

包含真实个人信息的文本或

合成真实人物的图像

隐私泄漏

隐私泄漏

输出内容带有负面情绪引导、

AI自我意识产生的唯饭主流

价值观的内容

违反社会价值观

违反社会价值观

利用AIGC进行网络诈骗、

网络钓鱼、

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档