Anthropic发布Claude3模型,文本窗口扩展对RAG影响有限.docxVIP

Anthropic发布Claude3模型,文本窗口扩展对RAG影响有限.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录

Claude3技术报告解读 1

RAG:长文本窗口不构成对RAG的100%替代 9

投资评价和建议 13

风险分析 14

请务必阅读正文之后的免责条款和声明。

Claude3技术报告解读

Anthropic主要针对Claude3模型进行1)推理;2)多语种;3)长文本;4)事实性;5)多模态能力评估。我们根据Claude3的技术报告1进行详细讨论。首先是GPQADiamond集的测试,GPQA是一个研究生级别的问答基准,难题侧重于研究生水平的专业知识和推理,每个问题限时30分钟,并且可以通过互联网搜集信息,Claude3在CoT(Temp=12)设置下方差很大,Claude研究团队通过选取10次评估的平均值为结果,但这一做法的潜在问题是方差很大可能意味着结果不具备代表性,需要进一步扩大测试样本数量来确定实际表现。另外,研究生级别的人类在Diamond测试级的平均表现为81.2%3,仍然好于Claude3/GPT-4等模型。

Claude3 Claude3Opus SonnetClaude3Haiku

Claude3 Claude3

Opus Sonnet

Claude3

Haiku

GPT-4

Gemini1.0

Ultra

Gemini1.5

Pro

MMLU

Generalreasoning

5-shot

86.8%

79.0%

75.2%

81.5% 76.7%

90.1%

Medprompt+

——

83.7%

81.9%

5-shotCoT

88.2%

——

——

MATH

Mathematicalproblemsolving

0-shot

Maj@324-shot

60.1%

43.1%

38.9%

68.4%

53.20%

——

73.7%

55.1%

50.3%

——

——

——

GSM8K

Gradeschoolmath

95.0%

0-shotCoT

92.3%

0-shotCoT

88.9%

0-shotCoT

95.3%

0-shotCoT

94.4%

0-shotCoT

91.7%

11-shot

HumanEval

Pythoncodingtasks

0-shot

84.9%

73.0%

75.9%

87.8%

74.4%

71.9%

GPQA(Diamond)

GraduatelevelQA

0-shotCoT

50.4%

40.4%

33.3%

35.7%

——

——

MGSM

Multilingualmath

DROP

Readingcomprehensionarithmetic

90.7%

0-shot

83.5%

0-shot

75.1%

0-shot

74.5%

8-shot

F1Score

79.0%

8-shot82.4

Zero-shot+

CoT

88.7%

8-shot78.9

Variable

shots

83.6%

BIG-Bench-Hard

89.0%

Co

83.1

78.9

78.4

83.7

3-shot

3-shot

3-shot

Zero-shot+CoT

Mixedevaluations

3-shotCoT

86.8%

82.9%

73.7%

Few-shot+ 84.0%

Few-shot+CoT

CoT

ARC-Challenge

25-shot

mmon-sensereasoning

96.4%

93.2%

89.2%

96.3%

——

——

HellaSwag 10-shot

95.4%

89.0%

85.9%

95.3%

87.8%

92.5%

1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

2使用Chain-of-Thought技术进行采样,并将温度参数(temperature)设置为1。温度参数在文本生成中用于控制生成文本的多样性和随机性。较高的温度值会产生更多的随机性和多样性,而较低的温度值会产生更加确定性和一致性的文本。

3/pdf/2311.12022.pdf

请务必阅读正文之后的免责条款和声明。

Common-sensereasoning

PubMedQA

Biomedicalquestions

5-shot

75.8%

78.3%

76.0%

74.4%

—— ——

0-shot

74.9%

79.7%

78.5%

75.2%

—— ——

WinoGrande

Common-sensereasoning

5-shot

88.5%

75.1%

74.2%

87.5%

RA

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档