Claude3、Inflection-2.5等大模型推出，多项性能超GPT4.docxVIP

下载本文档

4
0
约1.13万字
约 11页
2024-03-23 发布于北京
举报
版权申诉

Claude3、Inflection-2.5等大模型推出，多项性能超GPT4.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一、行业变化

Anthropic发布Claude3系列大语言模型，性能超越GPT-4和

Gemini1.0Ultra

3月4日，人工智能创业公司Anthropic宣布推出其突破性的Claude3系列模型，该系列大型语言模型(LLM)在各种认知任务上树立了新的性能标杆。Claude3系列包含三个子模型，分别为Claude3Haiku、Claude3Sonnet和Claude3Opus，它们提供不同程度的智能、速度和成本选择，以满足各种人工智能应用需求。

Anthropic表示，按照顺序Claude3的三个模型性能依次越来越强大，允许用户为其特定应用选择智能、速度和成本的最佳平衡。Claude3Opus和Claude3Sonnet现已可在claude.ai中使用，而ClaudeAPI现已在159个国家/地区（不包括中国大陆）广泛使用。

图表1：Claude3模型家族

资料来源：Anthropic官网，

与同行模型在多个性能基准比较中，全面领先GPT-4、Gemini等模型。Anthropic表示，Claude3Opus是最智能的模型，在人工智能系统的大多数常见评估基准上都优于同行，包括本科水平专业知识（MMLU）、研究生水平专业推理（GPQA）、基础数学（GSM8K）等。Claude3Opus在复杂任务上表现出接近人类水平的理

解力和流畅性。所有Claude3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。Claude3模型与同行模型在多个性能基准比较中，全面领先GPT-4、Gemini等模型。

图表2：Claude3与其他大模型能力对比

资料来源：Anthropic官网，

Claude3系列模型针对实时交互进行了优化，旨在提升实时聊天、自动完成和数据提取等功能。对其中，

速度最快且最具成本效益的Claude3Haiku，能够在3秒内处理包含图表的信息密集型研究论文。Claude3Sonnet在提升智能水平的同时，处理速度是之前模型的两倍，非常适合知识检索和销售自动化。Opus的处理速度与Claude2和2.1相似，但智能水平大幅提升。

Claude3系列模型还具备与其他领先模型相当的视觉能力。他们可以处理各种视觉格式，包括照片、图表、图形和技术图表。其中Claude3Opus在某些类别上甚至超越了GPT-4V和Gemini1.0Ultra。

行业动态报告

图表3：Claude3在视觉领域上的领先之处

资料来源：Anthropic官网，

Anthropic还提到，与前代模型相比，Claude3Opus、Claude3Sonnet和Claude3Haiku更少拒绝回答接近系统安全限制的提示词。Claude过去的模型常常被诟病“过于保守”，经常对用户做出不必要的拒绝。这是模型缺乏语境理解的表现。随着Claude3的发布，Anthropic宣布其在这一领域取得了有意义的进展：与前几代模型相比，Claude3Opus、Claude3Sonnet和Claude3Haiku拒绝回答的可能性明显降低。

图表4：Claude拒绝回答的可能性大大降低图表5：Claude3能够更准确的回答开放式问题

资料来源：Anthropic官网，资料来源：Anthropic官网，

Anthropic表示Claude3模型在精度上也得到了提升。为了评估这一点，Anthropic使用了大量复杂的事实问题来针对当前模型中已知的弱点。Anthropic将答案分为正确答案、错误答案（或幻觉）和承认不确定性，其中模型一开始不知道答案。与Claude2.1相比，Opus在这些具有挑战性的开放式问题上的准确性（或回答

正确答案的概率）提高了一倍，同时也减少了回答错误答案的概率。除了产生更值得信赖的回复之外，Anthropic表示很快还将在Claude3模型中启用引用功能。

在上下文窗口大小方面，Claude3系列模型在发布时将提供20万token的上下文窗口，并且这三个模型都能够接受超过100万token的输入，Anthropic未来可能会增加对更大上下文窗口的支持。在“大海捞针”测试中，Claude3Opus不仅实现了近乎完美的回忆能力，准确率超过99%，而且在某些情况下，它甚至通过识别出“针”句子似乎是被人为插入到原始文本中的，指出了评估本