- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
一、行业变化
Anthropic发布Claude3系列大语言模型,性能超越GPT-4和
Gemini1.0Ultra
3月4日,人工智能创业公司Anthropic宣布推出其突破性的Claude3系列模型,该系列大型语言模型(LLM)在各种认知任务上树立了新的性能标杆。Claude3系列包含三个子模型,分别为Claude3Haiku、Claude3Sonnet和Claude3Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。
Anthropic表示,按照顺序Claude3的三个模型性能依次越来越强大,允许用户为其特定应用选择智能、速度和成本的最佳平衡。Claude3Opus和Claude3Sonnet现已可在claude.ai中使用,而ClaudeAPI现已在159个国家/地区(不包括中国大陆)广泛使用。
图表1:Claude3模型家族
资料来源:Anthropic官网,
与同行模型在多个性能基准比较中,全面领先GPT-4、Gemini等模型。Anthropic表示,Claude3Opus是最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专业知识(MMLU)、研究生水平专业推理(GPQA)、基础数学(GSM8K)等。Claude3Opus在复杂任务上表现出接近人类水平的理
解力和流畅性。所有Claude3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。Claude3模型与同行模型在多个性能基准比较中,全面领先GPT-4、Gemini等模型。
图表2:Claude3与其他大模型能力对比
资料来源:Anthropic官网,
Claude3系列模型针对实时交互进行了优化,旨在提升实时聊天、自动完成和数据提取等功能。对其中,
速度最快且最具成本效益的Claude3Haiku,能够在3秒内处理包含图表的信息密集型研究论文。Claude3Sonnet在提升智能水平的同时,处理速度是之前模型的两倍,非常适合知识检索和销售自动化。Opus的处理速度与Claude2和2.1相似,但智能水平大幅提升。
Claude3系列模型还具备与其他领先模型相当的视觉能力。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。其中Claude3Opus在某些类别上甚至超越了GPT-4V和Gemini1.0Ultra。
行业动态报告
图表3:Claude3在视觉领域上的领先之处
资料来源:Anthropic官网,
Anthropic还提到,与前代模型相比,Claude3Opus、Claude3Sonnet和Claude3Haiku更少拒绝回答接近系统安全限制的提示词。Claude过去的模型常常被诟病“过于保守”,经常对用户做出不必要的拒绝。这是模型缺乏语境理解的表现。随着Claude3的发布,Anthropic宣布其在这一领域取得了有意义的进展:与前几代模型相比,Claude3Opus、Claude3Sonnet和Claude3Haiku拒绝回答的可能性明显降低。
图表4:Claude拒绝回答的可能性大大降低 图表5:Claude3能够更准确的回答开放式问题
资料来源:Anthropic官网, 资料来源:Anthropic官网,
Anthropic表示Claude3模型在精度上也得到了提升。为了评估这一点,Anthropic使用了大量复杂的事实问题来针对当前模型中已知的弱点。Anthropic将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型一开始不知道答案。与Claude2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或回答
正确答案的概率)提高了一倍,同时也减少了回答错误答案的概率。除了产生更值得信赖的回复之外,Anthropic表示很快还将在Claude3模型中启用引用功能。
在上下文窗口大小方面,Claude3系列模型在发布时将提供20万token的上下文窗口,并且这三个模型都能够接受超过100万token的输入,Anthropic未来可能会增加对更大上下文窗口的支持。在“大海捞针”测试中,Claude3Opus不仅实现了近乎完美的回忆能力,准确率超过99%,而且在某些情况下,它甚至通过识别出“针”句子似乎是被人为插入到原始文本中的,指出了评估本
您可能关注的文档
- 2月PMI数据点评:经济动能回正.docx
- 2月PMI数据点评:经济动能回正.pdf
- 2月美国非农数据点评:令人惊艳的“再平衡”.docx
- 2月通胀数据点评:如何评估物价回升的持续性?.docx
- 2月通胀数据解读:剔除春节错位,CPI表现如何?.docx
- 2月物价解读:核心CPI延续改善.docx
- 3月8日信用债异常成交跟踪.docx
- 3月11日信用债异常成交跟踪.docx
- 3月12日信用债异常成交跟踪.docx
- 3月流动性月报:资金跨季风险或相对可控.docx
- Claude3再度提升语言模型能力,关注一季报绩优公司.docx
- HBM3E量产在即,关注国产HBM突破和产业链受益.docx
- OLED显示行业报告:全面渗透与国产化,中大尺寸布局加速.docx
- Sabic(2010.TD)首次覆盖报告:背靠沙特阿美的全球综合化工领先企业.docx
- W市场观察:反弹持续,成长、高股息表现皆优.docx
- 安踏体育(2020.HK)三条成长曲线协同发展,共筑企业深厚“护城河”.docx
- 白酒春节开门红有利于提升春糖会热度.docx
- 半导体行业存储芯片板块跟踪报告(三):DDR3供不应求,涨价行情向利基市场扩散.docx
- 半导体行业点评报告:行业市场备货需求浮现,中国台厂多月营收同比高增.docx
- 保险行业2023保险资产管理年度报告:初心如磐,应势而谋.docx
文档评论(0)