AI行业动态更新:OpenAI推出GPT.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1OpenAI发布GPT4-o模型

5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。

GPT-4o是一个跨越文本、音频和视频的端到端模型,这意味着所有输入和输出都是由同一个神经网络进行处理,推动了性能的提升。GPT-4o在多语言、音频、视觉能力创下了新的SOTA。在LMSYS发布的最新大模型测评中,GPT-4o性能呈现断崖式大幅领先其他模型。

图1:模型性能测试对比 图2:OpenAICEOSamAltman转发GPT-4o测评分数

资料来源:OpenAI官网、 资料来源:推特、

音频自动语音识别(ASR)性能:GPT-4o在所有语言上的语音识别性能上都有显著提升,特别是在资源较少的语言上,相较于Whisper-v3模型表现更为出色。

音频翻译性能:GPT-4o在语音翻译方面达到了新的行业领先水平,并在多语言语音(MLS)基准测试中超越了Whisper-v3模型。

图3:音频自动语音识别(ASR)测试结果 图4:音频翻译测试结果

资料来源:OpenAI官网、 资料来源:OpenAI官网、

多语言和视觉评估测试:M3Exam基准测试是一个多语言和视觉评估的综合体,它包含来自其他国家标准化考试的多项选择题。GPT-4o在所以语言测试中展现出比GPT-4更强的能力。

视觉理解测试:GPT-4o在视觉能力方面达到了最强的能力,视觉能力超过了GPT-4Turbo、

Gemini1.0Ultra、Gemini1.5Pro、ClaudeOpus等多款主流大模型。

图5:M3Exam基准测试结果 图6:视觉理解测试结果

资料来源:OpenAI官网、 资料来源:OpenAI官网、

视觉+语音交互功能:发布会演示了通过即时手写数学问题,要求GPT-4o不告诉解决方案,只是给予过程的提示。GPT-4o能在线理解问题进行指导。通过不断的引导以及给予提升,最终带领用户完成问题的解答。显示出GPT-4o视觉、语音的多模态交互功能(同时进行视觉理解、逻辑推理、语音输出等多项任务)。GPT-4o接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合作为输出。

图7:GPT-4o实时识别手写问题 图8:引导用户解决问题

资料来源:OpenAI春季发布会视频、 资料来源:OpenAI春季发布会视频、

实时理解桌面信息,解答问题并分析图表:OpenAI将推出桌面版ChatGPT,其可以被轻松集成到用户的工作流程中,很大程度提升了用户交互体验。发布会演示了ChatGPT分析代码的能力;首先将一段Python代码输入ChatGPT,并让ChatGPT用一句话总结这段代码在做什么。ChatGPT能够快速理解代码用于获取日常天气数据,随后又详细说明了其对天气数据进行了哪些后续分析。此次桌面版ChatGPT的推出,推动了大模型应用场景的落地,更像真人交互的AIAgent。GPT4o在电脑桌边部署或将预示着未来AI终端市场将迎来革命。

图9:GPT-4o识别桌面代码 图10:GPT-4o分析图表

资料来源:OpenAI春季发布会视频、 资料来源:OpenAI春季发布会视频、

具备情绪感知能力:发布会演示了当用户通过视频向ChatGPT展示情绪,并要求ChatGPT识别他当下的心情。GPT4-o能够通过视频精确的识别用户的情绪;同时当受到夸赞时,GPT-4o也可以根据场景输出与真人相仿的情绪、语气;用户在对话中可以随时打断,与真实对话场景更为相似。此前大模型仅在文本交互方面有较强的能力;伴随着GPT-4o的推出大模型在情感理解、对话连贯性等方面有所改善,未来生成式AI将提供更好的人机交互体验,预计大模型的实用性将大幅提升。

图11:GPT-4o输出与真人相仿的情绪 图12:GPT-4o通过视频识别人类情绪

资料来源:OpenAI春季发布会视频、 资料来源:OpenAI春季发布会视频、

2谷歌I/O开发者大会

5

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档