Anthropic发布Claude3模型，文本窗口扩展对RAG影响有限.docxVIP

下载本文档

5
0
约8.91千字
约 15页
2024-03-23 发布于北京
举报
版权申诉

Anthropic发布Claude3模型，文本窗口扩展对RAG影响有限.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Claude3技术报告解读 1

RAG：长文本窗口不构成对RAG的100%替代 9

投资评价和建议 13

风险分析 14

请务必阅读正文之后的免责条款和声明。

Claude3技术报告解读

Anthropic主要针对Claude3模型进行1）推理；2）多语种；3）长文本；4）事实性；5）多模态能力评估。我们根据Claude3的技术报告1进行详细讨论。首先是GPQADiamond集的测试，GPQA是一个研究生级别的问答基准，难题侧重于研究生水平的专业知识和推理，每个问题限时30分钟，并且可以通过互联网搜集信息，Claude3在CoT（Temp=12）设置下方差很大，Claude研究团队通过选取10次评估的平均值为结果，但这一做法的潜在问题是方差很大可能意味着结果不具备代表性，需要进一步扩大测试样本数量来确定实际表现。另外，研究生级别的人类在Diamond测试级的平均表现为81.2%3，仍然好于Claude3/GPT-4等模型。

Claude3 Claude3Opus SonnetClaude3Haiku

Claude3 Claude3

Opus Sonnet

Claude3

Haiku

GPT-4

Gemini1.0

Ultra

Gemini1.5

Pro

MMLU

Generalreasoning

5-shot

86.8%

79.0%

75.2%

81.5% 76.7%

90.1%

Medprompt+

——

83.7%

81.9%

5-shotCoT

88.2%

——

MATH

Mathematicalproblemsolving

0-shot

Maj@324-shot

60.1%

43.1%

38.9%

68.4%

53.20%

——

73.7%

55.1%

50.3%

——

GSM8K

Gradeschoolmath

95.0%

0-shotCoT

92.3%

0-shotCoT

88.9%

0-shotCoT

95.3%

0-shotCoT

94.4%

0-shotCoT

91.7%

11-shot

HumanEval

Pythoncodingtasks

0-shot

84.9%

73.0%

75.9%

87.8%

74.4%

71.9%

GPQA(Diamond)

GraduatelevelQA

0-shotCoT

50.4%

40.4%

33.3%

35.7%

——

MGSM

Multilingualmath

DROP

Readingcomprehensionarithmetic

90.7%

0-shot

83.5%

0-shot

75.1%

0-shot

74.5%

8-shot

F1Score

79.0%

8-shot82.4

Zero-shot+

CoT

88.7%

8-shot78.9

Variable

shots

83.6%

BIG-Bench-Hard

89.0%

83.1

78.9

78.4

83.7

3-shot

Zero-shot+CoT

Mixedevaluations

3-shotCoT

86.8%

82.9%

73.7%

Few-shot+ 84.0%

Few-shot+CoT

CoT

ARC-Challenge

25-shot

mmon-sensereasoning

96.4%

93.2%

89.2%

96.3%

——

HellaSwag 10-shot

95.4%

89.0%

85.9%

95.3%

87.8%

92.5%

1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

2使用Chain-of-Thought技术进行采样，并将温度参数（temperature）设置为1。温度参数在文本生成中用于控制生成文本的多样性和随机性。较高的温度值会产生更多的随机性和多样性，而较低的温度值会产生更加确定性和一致性的文本。

3/pdf/2311.12022.pdf

请务必阅读正文之后的免责条款和声明。

Common-sensereasoning

PubMedQA

Biomedicalquestions

5-shot

75.8%

78.3%

76.0%

74.4%

—— ——

0-shot

74.9%

79.7%

78.5%

75.2%

—— ——

WinoGrande

Common-sensereasoning

5-shot

88.5%

75.1%

74.2%

87.5%

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

Anthropic发布Claude3模型，文本窗口扩展对RAG影响有限.docxVIP