网站大量收购独家精品文档,联系QQ:2885784924

大模型安全实践(2024)白皮书-清华大学蚂蚁中关村(OCR).docx

大模型安全实践(2024)白皮书-清华大学蚂蚁中关村(OCR).docx

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

蚂蚁集团ANTGROUP清茅大学中关村实验室

蚂蚁集团

ANTGROUP

清茅大学

ZGCLAB

TsinghuaUniversity

大模型安全实践

2024

合P

大模型安全实践(2024)

编写说明

联合编写

清华大学

中关村实验室中国信通院

蚂蚁集团

特别支持

蚂蚁集团

商汤科技

薪班班集团

编写组成员

顾问

徐恪廖运发陈俊琰李俊奎邵晓东

主编

李琦王维强郑亮常永波牛晓芳

参编成员

中关村实验室、清华大学

崔天宇肖勇王艳玲

中国信通院

彭莉姚亦非朱嘉琳章舟

蚂蚁集团

祝慧佳赵智源崔世文辛知

兰钧涂逸杨阳魏扬威

朱丛罗清侯佳龙刘春亚

目录

引言 5

一、大模型发展趋势与挑战 6

1.1大模型发展趋势 6

1.2大模型发展挑战 8

二、大模型安全实践总体框架 10

2.1总体框架 10

2.2大模型安全建设的指导思想:以人为本,AI向善 11

2.3大模型建设的三个关键维度:安全、可靠、可控 14

2.4大模型落地的三种主要模式:端、边、云 17

三、大模型安全实践的技术方案 20

3.1大模型安全性技术研究和进展 20

3.1.1大模型的风险挑战与安全威胁 20

3.1.2大模型的安全防御体系 32

3.2大模型可靠性技术研究和进展 43

3.2.1大模型的对抗鲁棒性 43

3.2.2大模型的真实性 44

3.2.3大模型的价值对齐 45

3.3大模型可控性技术研究和进展 47

3.3.1大模型的可解释性 47

3.3.2大模型的可标识和可追溯 48

3.3.3大模型的指令遵循 51

3.4大模型安全评测技术研究和进展 52

大模型安全实践(2024)

四、大模型安全行业实践与案例分析 54

4.1金融领域大模型安全实践 54

4.2医疗领域大模型安全实践 58

4.3政务领域大模型安全实践 61

4.4人力资源领域大模型安全实践 65

4.5智能助理领域大模型安全实践 69

五、大模型安全未来展望与治理建议 71

5.1未来展望 71

5.2治理建议 75

图表目录

图2-1总体框架图 10

图2-2云边端安全架构图 18

图2-3端侧安全 19

图3-1大模型的隐私泄露风险示意图 21

图3-2模型后门攻击的不同触发器示意图 22

图3-3针对CHATGPT进行指令攻击效果图 23

图3-4基于大规模复杂分布式计算机系统建立的系统框架 24

图3-5生成式人工智能的系统安全威胁 25

图3-6生成式Al学习框架面临的安全问题示意图 27

图3-7大模型生成NFT艺术作品 30

图3-8大模型产生性别偏见性言论 31

图3-9联邦学习在大模型训练与微调中的应用 32

图3-10模型越狱防御技术的方法示意图 34

图3-11提示语泄漏防御技术的方法示意图 34

图3-12系统防御技术示意图 35

图3-13基于人类反馈的强化学习方法示意图 40

图3-14虚假新闻检测模型GROVER示意图 41

图3-15训练数据添加水印流程图 42

图3-16深度伪造主动防御技术流程图 43

图3-17模型幻觉防御技术 45

图3-18数字水印的应用流程 49

图3-19图片AIGC模型类型 50

图3-20大模型安全性评测链路 53

图4-1金融领域大模型安全实践案例 55

大模型安全实践(2024)

图4-2医疗领域大模型安全实践案例 58

图4-3医疗领域大模型安全技术实现 59

图4-4政务领域大模型安全防御技术实现 62

图4-5人力资源领域大模型安全实践案例 65

图4-6智能助理领域大模型安全实

文档评论(0)

yangzhuangju + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档