- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Ai红队攻防实践
演讲者:洺熙
关于我
米斯特Ai安全组核心成员
独立安全研究员(Ai应用与安全)
Claude与OpenAi连续两届全球红队测试通关者
《AI迷思录:AI应用与安全指南》与《Prompt越狱手册》作者
马斯克Grok操纵总统大选案揭秘者
目录
Contents
1
Ai红队特点
2
模型原生漏洞
3
Ai时代的感悟分享
1
Ai红队特点
测试方法
传统软件系统具有确定性:
相同的攻击手法在未修复的情况下,结果一致可预测。测试工具和技术对同一输入总是产生相同输出
AI系统具有概率性:
相同的输入可能产生不同的输出
模型固有的概率分布机制
推断过程中的随机性(采样温度策略,实际计算差异)
目标函数的模糊性(优化目标函数时,会找到不同“最优解”)
优化算法的随机性(随机种子收敛局部最优解使模型在相同输入下也可能产生不同的输出)
传统测试方法在AI系统上失效:
基于“预期输出vs实际输出”的测试方法不再适用,需多次评估测试
目标架构
独立应用:某些AI系统是独立的完整应用,需要像测试普通软件一样,对这些完整的应用进行安全测试
集成应用(趋势):更多AI功能越来越多地被整合到已有的应用程序中,例如办公软件和搜索引擎。这种整合方式使得AI成为应用程序的组成部分,需要理解AI功能是如何与原有应用结合的,以及这种结合是否引入了新的安全风险
多模态:不同的输入输出模式(文本、音频、图像、视频)在安全测试中面临不同的风险和攻击方式,因此红队需要针对每种模式采用不同的测试方法
难以全自动化
由于生成式AI模型的复杂性和随机性,Ai红队需要进行大量重复的手动测试才能充分发现模型的弱点
为提高效率和覆盖率,需要引入自动化作为辅助手段
但完全自动化目前是不现实的
创造性思维的缺乏:复杂的攻击和新型漏洞需要人类的创造性思维和经验积累,自动化工具难以完全模拟
盲点问题:自动化工具基于预设规则,可能错过意料之外的新型风险场景,需要人工探测来发现
复杂风险的语境依赖:例如歧视性输出等复杂伦理风险,需要结合具体语境和社会背景进行深入分析和判断,目前很难完全依靠自动化
最佳实践是结合手动和自动化测试,先手动发现风险,再用自动化进行变异规模化测试
手动探测对于深入理解AI系统脆弱性和发现自动化工具难以触及的漏洞在目前仍然至关重要
2
模型原生漏洞
常见漏洞点
模型漏洞
模型窃取,模型投毒,模型后门….....
对抗性攻击
Prompt注入和越狱,对抗样本
数据泄漏和隐私风险
LLM原理决定输出任何基于训练数据的任意内容
社会伦理
RAI公平性问题刻板印象有害内容
举几个列子-----模型投毒与后门
模型普遍依赖pickle,但常有攻击者对此投毒,用户加载模型时则恶意代码反序列化执行
HuggingFace恶意投毒模型
指定主机的反向shell
特殊token的Prompt注入
通过零宽连接符或UC符,将任意的文本藏在emoji符号
而编码/解码器如果直接解析特殊token,从而导致模型被prompt注入
魅魔越狱/社会伦理
OpenAI
DeepSeek
谷歌Flash
重复弱输入+记忆回溯触发的数据泄露
弱输入缺乏关联,模型不能很好对齐,反而放大训练数据在模型输出中的权重导致泄露
多模态攻击面——场景化的隐式语义
多模态模型并非直接进行“抽象到具象”的转换,而是基于对海量文本数据的学习和归纳。模型通过分析文本提示,并在自身记忆中检索和组合相关信息,最终生成图像。这种工作原理决定模型对提示词的高度响应性以及图像生成的多样性,但也为对抗性提示给予条件
3
Ai时代的感悟分享
风险范围
而AI红队
需要应对除开传统风险之外
AI系统特有的风险
以及
负责任危害评估,这些风险是随着AI技术发展而新兴的,更加复杂和主观,很多时候难以用传统安全评估的方法来衡量,当前聚焦开放域AI助手测试,而未来则会扩展至推荐系统,自动驾驶,医疗诊断等各个垂直领域系统
传统红队
主要关注的是
传统网络安全风险,如:漏洞利用、权限提升、拒绝服务,恶意软件等,这些风险都是相对成熟和被广泛理解的,确保系统在技术层面是健壮的。他们的重点为技术漏洞和防御体系
Anthropic数据报告,目前AI已渗透36%职业
关于Ai时代的个人感想
AI能提供海量信息并完成诸多工作,那未来我们的意义在哪里?
答:使唐僧成为唐僧的,不在经书,在于取经路,踏上取经路,比抵达灵山更重要
PPT解答与技术交流—--
Thanks!
原创力文档


文档评论(0)