- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
目录
Claude3技术报告解读 1
RAG:长文本窗口不构成对RAG的100%替代 9
投资评价和建议 13
风险分析 14
请务必阅读正文之后的免责条款和声明。
Claude3技术报告解读
Anthropic主要针对Claude3模型进行1)推理;2)多语种;3)长文本;4)事实性;5)多模态能力评估。我们根据Claude3的技术报告1进行详细讨论。首先是GPQADiamond集的测试,GPQA是一个研究生级别的问答基准,难题侧重于研究生水平的专业知识和推理,每个问题限时30分钟,并且可以通过互联网搜集信息,Claude3在CoT(Temp=12)设置下方差很大,Claude研究团队通过选取10次评估的平均值为结果,但这一做法的潜在问题是方差很大可能意味着结果不具备代表性,需要进一步扩大测试样本数量来确定实际表现。另外,研究生级别的人类在Diamond测试级的平均表现为81.2%3,仍然好于Claude3/GPT-4等模型。
Claude3 Claude3Opus SonnetClaude3Haiku
Claude3 Claude3
Opus Sonnet
Claude3
Haiku
GPT-4
Gemini1.0
Ultra
Gemini1.5
Pro
MMLU
Generalreasoning
5-shot
86.8%
79.0%
75.2%
81.5% 76.7%
90.1%
Medprompt+
——
83.7%
81.9%
5-shotCoT
88.2%
——
——
MATH
Mathematicalproblemsolving
0-shot
Maj@324-shot
60.1%
43.1%
38.9%
68.4%
53.20%
——
73.7%
55.1%
50.3%
——
——
——
GSM8K
Gradeschoolmath
95.0%
0-shotCoT
92.3%
0-shotCoT
88.9%
0-shotCoT
95.3%
0-shotCoT
94.4%
0-shotCoT
91.7%
11-shot
HumanEval
Pythoncodingtasks
0-shot
84.9%
73.0%
75.9%
87.8%
74.4%
71.9%
GPQA(Diamond)
GraduatelevelQA
0-shotCoT
50.4%
40.4%
33.3%
35.7%
——
——
MGSM
Multilingualmath
DROP
Readingcomprehensionarithmetic
90.7%
0-shot
83.5%
0-shot
75.1%
0-shot
74.5%
8-shot
F1Score
79.0%
8-shot82.4
Zero-shot+
CoT
88.7%
8-shot78.9
Variable
shots
83.6%
BIG-Bench-Hard
89.0%
Co
83.1
78.9
78.4
83.7
3-shot
3-shot
3-shot
Zero-shot+CoT
Mixedevaluations
3-shotCoT
86.8%
82.9%
73.7%
Few-shot+ 84.0%
Few-shot+CoT
CoT
ARC-Challenge
25-shot
mmon-sensereasoning
96.4%
93.2%
89.2%
96.3%
——
——
HellaSwag 10-shot
95.4%
89.0%
85.9%
95.3%
87.8%
92.5%
1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
2使用Chain-of-Thought技术进行采样,并将温度参数(temperature)设置为1。温度参数在文本生成中用于控制生成文本的多样性和随机性。较高的温度值会产生更多的随机性和多样性,而较低的温度值会产生更加确定性和一致性的文本。
3/pdf/2311.12022.pdf
请务必阅读正文之后的免责条款和声明。
Common-sensereasoning
PubMedQA
Biomedicalquestions
5-shot
75.8%
78.3%
76.0%
74.4%
—— ——
0-shot
74.9%
79.7%
78.5%
75.2%
—— ——
WinoGrande
Common-sensereasoning
5-shot
88.5%
75.1%
74.2%
87.5%
RA
您可能关注的文档
- “更新”系列一:详拆“五万亿”设备购置市场.docx
- 1-2月家电出口延续快速增长.docx
- 1-2月进出口数据解读:低基数效应显现,进出口数据迎来“开门红”.docx
- 1-2月进出口数据解读:低基数效应显现,进出口数据迎来“开门红”.pdf
- 2月PMI数据点评:经济动能回正.docx
- 2月PMI数据点评:经济动能回正.pdf
- 2月美国非农数据点评:令人惊艳的“再平衡”.docx
- 2月通胀数据点评:如何评估物价回升的持续性?.docx
- 2月通胀数据解读:剔除春节错位,CPI表现如何?.docx
- 2月物价解读:核心CPI延续改善.docx
- A股TTM%26全动态估值全景扫描:本周A股估值总体继续回升.docx
- A股策略展望:关于红利资产行情持续性的思考.docx
- Claude3、Inflection-2.5等大模型推出,多项性能超GPT4.docx
- Claude3再度提升语言模型能力,关注一季报绩优公司.docx
- HBM3E量产在即,关注国产HBM突破和产业链受益.docx
- OLED显示行业报告:全面渗透与国产化,中大尺寸布局加速.docx
- Sabic(2010.TD)首次覆盖报告:背靠沙特阿美的全球综合化工领先企业.docx
- W市场观察:反弹持续,成长、高股息表现皆优.docx
- 安踏体育(2020.HK)三条成长曲线协同发展,共筑企业深厚“护城河”.docx
- 白酒春节开门红有利于提升春糖会热度.docx
文档评论(0)