Claude3、Inflection-2.5等大模型推出,多项性能超GPT4.docxVIP

Claude3、Inflection-2.5等大模型推出,多项性能超GPT4.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

一、行业变化

Anthropic发布Claude3系列大语言模型,性能超越GPT-4和

Gemini1.0Ultra

3月4日,人工智能创业公司Anthropic宣布推出其突破性的Claude3系列模型,该系列大型语言模型(LLM)在各种认知任务上树立了新的性能标杆。Claude3系列包含三个子模型,分别为Claude3Haiku、Claude3Sonnet和Claude3Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。

Anthropic表示,按照顺序Claude3的三个模型性能依次越来越强大,允许用户为其特定应用选择智能、速度和成本的最佳平衡。Claude3Opus和Claude3Sonnet现已可在claude.ai中使用,而ClaudeAPI现已在159个国家/地区(不包括中国大陆)广泛使用。

图表1:Claude3模型家族

资料来源:Anthropic官网,

与同行模型在多个性能基准比较中,全面领先GPT-4、Gemini等模型。Anthropic表示,Claude3Opus是最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专业知识(MMLU)、研究生水平专业推理(GPQA)、基础数学(GSM8K)等。Claude3Opus在复杂任务上表现出接近人类水平的理

解力和流畅性。所有Claude3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。Claude3模型与同行模型在多个性能基准比较中,全面领先GPT-4、Gemini等模型。

图表2:Claude3与其他大模型能力对比

资料来源:Anthropic官网,

Claude3系列模型针对实时交互进行了优化,旨在提升实时聊天、自动完成和数据提取等功能。对其中,

速度最快且最具成本效益的Claude3Haiku,能够在3秒内处理包含图表的信息密集型研究论文。Claude3Sonnet在提升智能水平的同时,处理速度是之前模型的两倍,非常适合知识检索和销售自动化。Opus的处理速度与Claude2和2.1相似,但智能水平大幅提升。

Claude3系列模型还具备与其他领先模型相当的视觉能力。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。其中Claude3Opus在某些类别上甚至超越了GPT-4V和Gemini1.0Ultra。

行业动态报告

图表3:Claude3在视觉领域上的领先之处

资料来源:Anthropic官网,

Anthropic还提到,与前代模型相比,Claude3Opus、Claude3Sonnet和Claude3Haiku更少拒绝回答接近系统安全限制的提示词。Claude过去的模型常常被诟病“过于保守”,经常对用户做出不必要的拒绝。这是模型缺乏语境理解的表现。随着Claude3的发布,Anthropic宣布其在这一领域取得了有意义的进展:与前几代模型相比,Claude3Opus、Claude3Sonnet和Claude3Haiku拒绝回答的可能性明显降低。

图表4:Claude拒绝回答的可能性大大降低 图表5:Claude3能够更准确的回答开放式问题

资料来源:Anthropic官网, 资料来源:Anthropic官网,

Anthropic表示Claude3模型在精度上也得到了提升。为了评估这一点,Anthropic使用了大量复杂的事实问题来针对当前模型中已知的弱点。Anthropic将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型一开始不知道答案。与Claude2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或回答

正确答案的概率)提高了一倍,同时也减少了回答错误答案的概率。除了产生更值得信赖的回复之外,Anthropic表示很快还将在Claude3模型中启用引用功能。

在上下文窗口大小方面,Claude3系列模型在发布时将提供20万token的上下文窗口,并且这三个模型都能够接受超过100万token的输入,Anthropic未来可能会增加对更大上下文窗口的支持。在“大海捞针”测试中,Claude3Opus不仅实现了近乎完美的回忆能力,准确率超过99%,而且在某些情况下,它甚至通过识别出“针”句子似乎是被人为插入到原始文本中的,指出了评估本

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档