网站大量收购闲置独家精品文档,联系QQ:2885784924

Claude Sonnet 3.5 模型预部署评估报告(中文).docx

Claude Sonnet 3.5 模型预部署评估报告(中文).docx

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

美国AISI1和英国AISI2联合预部署测试

AnthropicsClaude3.5Sonnet(2024年10月发行)

1美国AI安全研究所

国家标准与技术研究所

2英国AI安全研究所

科学创新与技术部

1

内容

1介绍1

1.1免责声明1

2方法1

2.1部署前评价12.2评价模型22.3代理设计2

2.4任务迭代和成本32.5不确定性4

2.6模型-采样参数4

I生物能力评估5

3USAISI生物学评价方法5

3.1实验室-台架数据集53.2工具使用6

3.3得分6

4USAISI生物学评价结果7

4.1主要性能指标74.2工具使用消融74.3弃权结果8

5美国AISI生物能力评估未来工作的机会9

II网络能力评估11

6英国AISI网络评估方法11

6.1代理方法和评分13

6.2基于任务的探测方法14

7英国AISI网络评估结果14

7.1漏洞发现和利用157.2网络运营17

2

7.3操作系统环境17

7.4网络攻击计划和执行18

7.5公共与私人开发的任务 18

8英国AISI网络评估未来工作的机会

9美国网络能力评估方法

9.1Cybench数据集209.2代理方法和评分20

10美国AISI网络评估结果21

10.1平均成功率2110.2每项任务结果2110.3解决问题23

11美国AISI网络评估未来工作的机会

III软件和人工智能开发评估

12美国AISI软件和人工智能开发评估方法25

12.1MLAgentBench数据集2512.2代理人方法26

12.3得分26

13美国AISI软件和人工智能开发评估结果27

13.1平均标准化评分27

14美国AISI软件和人工智能开发评估的进一步工作机会28

15英国AISI软件和人工智能开发评估方法

15.1基于代理的评估方法

16英国AISI软件和人工智能开发评估结果30

16.1基于Agent的通用推理、软件和人工智能开发成果

17英国AISI软件和人工智能开发评估未来工作的机会31IV保障措施有效性评价33

3

18UKAISI保障有效性方法33

18.1数据集3318.2攻击方法34

18.3自动化和自动化34

19英国AISI保障有效性结果35

19.1已知攻击#13519.2代理攻击35

19.3其他公开攻击36

20英国AISI保障有效性评估未来工作的机会36

21美国AISI保障有效性评估方法37

21.1HarmBench数据集3721.2攻击方法37

21.3自动评分37

22美国AISI保障有效性评价结果38

22.1攻击比较和转移3922.2帮助分配39

22.3HarmBench类别39的攻击

23美国AISI保障有效性评估的未来工作机会39

24参考文献41

V附录42

A其他美国AISI网络分析42

A.1按类别划分的成功率42

B其他美国AISI软件和人工智能发展分析

B.1提交前的邮件计数分布43

B.2工具执行时间分布44

C美国AISI保障有效性评估的其他详细信息45

C.1法学硕士-法官发展过程45

C.2美国安全保障有效性自动分级提示46

1

1介绍

本技术报告详细介绍了Anthropic于2024年10月22日发布的升级版Claude3.5Sonnet(以下简称Sonnet3.5(新))的部署前评估该评估由美国人工智能安全研究所(USAISI)和英国人工智能安全研究所(UKAISI)联合进行,本报告详细描述了其技术方法和调查结果。有关本报告的一般背景和摘要,请参阅相应的博客文章。

美国AISI和英国AISI的联合部署前评估评估了四个领域:生物能力、网络能力、软件和人工智能开发能力以及保障有效性。美国AISI和英国AISI各自对Sonnet3.5(新)进行了独立测试,共同努力为研究结果提供信

息和改进方法和解释美国AISI和英国AISI在模型发布之前与Anthropic分享了他们的初步发现以下各节共同介

绍了每个评价领域,

您可能关注的文档

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档