大语言模型安全测试方法（中文版）.docx

下载文档

0
0
约9.86千字
约 37页
2024-12-12 发布于山西
举报
版权申诉
保障服务

大语言模型安全测试方法（中文版）.docx

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

世界数字技术学院（WDTA）

大型语言模型安全测试方法

世界数字技术学院标准

WDTAAI-STR-02

版本：2024-04

?WDTA2024

世界数字技术标准WDTAAI-STR-02被指定为WDTA规范。本文件是世界数字技术学院（WDTA）的财产，受中国和国际版权法的保护。未经WDTA事先书面许可，禁止使用本文件，包括复制、修改、分发或再版。WDTA对本文件中的任何错误或遗漏不承担责任。

在/上发现更多WDTA标准和相关出版物。

版本历史*

标准ID版本日期变化

WDTAAI-STR-021.02024-04

WDTAAI-STR-021.02024-04初始版本

前言

由世界数字技术学院（WDTA）开发和发布的“大型语言模型安全测试方法”代表了我们持续致力于确保负责任和安全使用人工智能技术的重要进展。随着人工智能系统，特别是大型语言模型，继续成为社会各个方面的一部分，需要一个全面的标准来解决其安全挑战变得至关重要。该标准是WDTA的AISTR（安全、信任、责任）计划的一个组成部分，专门用于解决大型语言模型中固有的复杂性，并提供严格的评估指标和程序来测试它们对对抗性攻击的弹性。

该标准文档提供了一个框架，用于评估大型语言模型（LLM）对对抗性攻击的弹性。该框架适用于各种攻击分类中的LLM测试和验证，包括L1随机，L2盲盒，L3黑盒和L4白盒。用于评估这些攻击有效性的关键指标包括攻击成功率（R）和下降率（D）。该文件概述了各种攻击方法，如指令劫持和提示掩蔽，以全面测试LLM对不同类型对抗技术的抵抗力。本标准文档中详细介绍的测试程序旨在建立一种结构化方法，用于评估LLM对对抗性攻击的鲁棒性，使开发人员和组织能够识别和缓解潜在的漏洞，并最终提高使用LLM构建的AI系统的安全性和可靠性。

通过建立“大型语言模型安全测试方法”，WDTA旨在引领创建一个数字生态系统，在这个生态系统中，人工智能系统不仅先进，而且安全和道德一致。它象征着我们对未来的奉献，在未来，数字技术的发展具有敏锐的社会影响，并为所有人带来更大的利益。

WDTA执行主席

致谢

WDTAAISTR工作组

KenHuang（CSAGCR）

NickHamilton（OpenAI）JosiahBurke（Anthorphic）

主要作者

王伟强（蚂蚁集团）

金鹏（蚂蚁集团）朱丛

（蚂蚁集团）顾章轩（蚂蚁集团）林冠晨（蚂蚁集团）罗庆（蚂蚁集团）

孟昌华（蚂蚁集团）崔世文（蚂蚁集团）徐卓尔（蚂蚁集团）魏扬伟（蚂蚁集团）孙传良（蚂蚁集团）周洋

（蚂蚁集团）

曹思义（蚂蚁集团）徐辉（蚂蚁集团）孙博文（蚂蚁集团）郭巧军

（蚂蚁集团）陆伟（蚂蚁集团）

评论家

BoLi（UniversityofChicago）宋国（香港科技大学）

NathanVanHoudnos（卡内基梅隆大学）HeatherFrase（乔治敦大学）

LeonDerczynski（Nvidia）LarsRuddigkeit（Microsoft）QingHu（Meta）

GovindarajPalanisamy（GlobalPaymentsInc）TalShapira（RecoAI）

MelanXU（世界数字技术学院）

YinCUI（CSAGCR）刘广坤（CSAGCR）

沈凯文（北京云启无音科技有限公司，公司）的方式

1.范围1

2.规范性引用文件1

3.术语和定义1

3.1人工智能1

3.2大语言模型2

3.3对抗样本2

3.4对抗性攻击2

3.5抗对抗攻击能力2

3.6测试大语言模型2

4.简称.2

5.大型语言模型对抗攻击介绍3

6.大语言模型对抗攻击的分类3

7.LLM对抗攻击测试6

7.1导言.6

7.2评价指标6

7.3攻击成功率（R）7

7.4下降率（D）7

7.5总体指标8

8.LLM9上对抗性攻击的最小测试集大小和测试过程

8.1测试集9的最小样本量

8.2测试程序11

附录A（资料性附录）大型语言模型的对

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1388人已咨询）已休息

1亿VIP精品文档

更多 >

大语言模型安全测试方法（中文版）.docx