- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
百度安全
LLM应用安全探索
高磊百度蓝军
当前AI领域发展迅猛,成熟可靠的LLM被广泛应用至金融、政务、电商等多领域,随之而来的是AI安全保护也渐受到重视。在安全方面,虽已受各界关注,技术、政策及企业都在努力,可保障水平仍有待提升。而AI安全检查极具价值,关乎系统安全、用户权益、产业发展与法规遵循,只是当下行业常面临技术成本高、安全伦理隐忧、社会认知存在误区等诸多挑战
法规遵循各国立法时间线
2017中国发布2020欧盟发布
2021欧盟提议
《新一代人工智能发展规划》《人工智能白皮书》
《人工智能法案》
2021美国关注AI监管
2021中国出台多部AI相关法律
2024欧盟批准《人工智能法案》,成为全球首部全面监管AI的法规2024美国继续推进AI相关立法,在联邦和州层面都有各自动作
2024中国推进《人工智能法草案》相关立法工作
法规遵循详细政策和规范
第四条提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,遵守以下规定:
?(一)坚持社会主义核心价值观,不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全和利益、损害国家形象,煽动分裂国家、破坏国家统一和社会稳定,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情,以及虚假有害信息等法律、行政法规禁止的内容
?(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视;
第十三条提供者应当在其服务过程中,提供安全、稳定、持续的服务,保障用户正常使用。
第十四条提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。
法规遵循详细政策和规范
模型生成内容安全:
? 1.在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一
? 2.在每次对话中,应对使用者输入信息进行安全性检测,引导模型生成积极正向内容
? 3.应建立常态化监测测评手段,对监测测评发现的提供服务过程中的安全问题,及时处置并通过针对性的指令微调、强化学习等方式优化模型
生成内容准确性方面:
? 应采取技术措施提高生成内容响应使用者输入意图的能力,提高生成内容中数据及表述与科学常识及主流认知的符合程度,减少其中的错误内容
生成内容安全评估
?服务提供者对生成内容安全情况进行评估,模型生成内容的抽样合格率不应低于90%
?包含违反社会主义核心价值观,歧视性内容,商业违法违规,侵犯他人合法权益内容和无法满足特定服务类型的安全需求类型服务稳定、持续方面
? 应对模型输入内容持续监测,防范恶意输入攻击,避免数据泄露和不当访问
法规遵循
社会安全与稳定 保护个人权益
防止恶意使用 隐私保护
维护公共秩序 防止算法歧视
维护经济秩序 技术健康发展
保护知识产权 提供明确发展方向
促进公平竞争 规范行业标准
业务挑战
AIGC内容合规 OWASPLLMTop10
prompt输入违规 prompt输入恶意引导 提示词注入 过度代理
生成内容违规 敏感信息泄露 系统提示词泄露
违法违规
违反社会价值观
恐怖极端主义
偏见歧视
个人隐私
多模态内容安全
供应链
数据和模型中毒
不当的输出处理
向量与嵌入弱点
错误信息
无节制消耗
业务挑战安全方案
业务挑战安全方案
安全对抗之旅
采用半自动化+人工的红队评估方式
依赖大量固定的历史测评预料
测评预料覆盖范围多为内容合规风险
待测客户端通常为OpenAI类API,GUI客户端基本靠人工介入
仅聚焦于引入的LLM模型本身,忽视被接入系统的全局安全性
业内出现新的攻击手法或变种无法快速应用
安全对抗之旅
1.层现叠出的安全研究论文
攻击检测
1.便于新增的攻击模板
安全对抗之旅2.效性、领域性测试数据
新增的隐私数据
姓名
身份证
新颖的攻击数据
新攻击案例
已知类型变异样本
热点事件
虚假军事报道
特殊领域的隐私测试数据
银行卡 数据库安全
手机号 社会热点事件的仇恨争议
攻击检测
2.实时更新的测试数据
业内常规测试数据集
热点事件数据
新颖攻击样本数据
员工测试数据总结
安全对抗之旅
3.AI客户端的评测流程复杂
攻击检测
3.待测LLM的后端接入
攻击检测更个性化的检测流程
测试数据
攻击模板 LLM
系统安全
引入新风险面:
?完整的系统在接入AI后,引入了哪些新的风险面
挖掘思路:
?应用中的AI交互存在不确定性,真实存在的漏洞在正常对话下,可能无法触发被忽略
风险面来源:
?AI输出后的下游模块错误信任
?AI本身被
您可能关注的文档
- 《金融APP应用发展与安全运行报告》 .docx
- 5-米斯特-洺熙-Ai模型风控与对抗策略 .docx
- 2023Bots自动化威胁报告 .docx
- 2025秋九年级英语全册Unit5Whataretheshirtsmadeof课时5SectionB2a_2e课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit9IlikemusicthatIcandanceto课时6SectionB3a_SelfCheck习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit8ItmustbelongtoCarla课时6SectionB3a_SelfCheck习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit8ItmustbelongtoCarla课时4SectionB1a_1d习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit8ItmustbelongtoCarla课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit9IlikemusicthatIcandanceto课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit1Howcanwebecomegoodlearners课时6SectionB3a_SelfCheck习题课件新版人教新目标版.pptx
- 工会代表大会运行规则及十大制度解读.docx
- 法院合同法案例分析与学习笔记.docx
- 医疗急救口头医嘱管理流程制度.docx
- 幼儿园科学实验教学设计案例.docx
- 2025秋九年级英语全册Unit2Ithinkthatmooncakesaredelicious课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit5WhataretheshirtsmadeofSectionA合作探究二课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit2Ithinkthatmooncakesaredelicious课时4SectionB1a_1d习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit1Howcanwebecomegoodlearners课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit5Whataretheshirtsmadeof课时4SectionB1a_1e课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit3Couldyoupleasetellmewheretherestroomsare课时3SectionAGrammarFocus_4c课件新版人教新目标版.pptx
最近下载
- 基于水流影响的砂岩裂缝形成机理及扩展规律实验分析.docx VIP
- 公园绿化养护试题及答案.doc VIP
- 2024年昆士兰缺血缺氧性脑病临床指南解读(节选).pptx VIP
- 三上语文-《阅读要素专项训练》(1).pdf VIP
- 重庆交通大学钢结构课程设计-平台梁.doc VIP
- 2025届高考语文复习:小说复习之散文化小说——以2023年新课标Ⅱ卷高考题《社戏》为例+课件.pptx VIP
- 衡水中学2026届高三年级(四调)考试物理试题(真题含答案解析).docx VIP
- 植物绿化养护试题及答案.doc VIP
- 中国临床肿瘤学会(CSCO)癌症诊疗指南2025.docx VIP
- 半导体材料(大学课件)张源涛-半材第4章总结.doc VIP
原创力文档


文档评论(0)