AI行业动态更新：OpenAI推出GPT.docxVIP

下载本文档

59
0
约6.16千字
约 9页
2024-06-01 发布于北京
举报
版权申诉

AI行业动态更新：OpenAI推出GPT.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1OpenAI发布GPT4-o模型

5月14日凌晨，美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1）多模态：接受任何文本、音频、图像和视频的组合作为输入，并生成任何文本、音频和图像输出的组合。2）响应速度快：可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。3）语言和代码能力出色：在英文文本和代码上与GPT-4Turbo的性能相匹配，在非英文文本上有了显著提升。4）使用成本低：在API使用方面，GPT-4o较之前版本价格降低一半且速度有所提升。

GPT-4o是一个跨越文本、音频和视频的端到端模型，这意味着所有输入和输出都是由同一个神经网络进行处理，推动了性能的提升。GPT-4o在多语言、音频、视觉能力创下了新的SOTA。在LMSYS发布的最新大模型测评中，GPT-4o性能呈现断崖式大幅领先其他模型。

图1：模型性能测试对比图2：OpenAICEOSamAltman转发GPT-4o测评分数

资料来源：OpenAI官网、资料来源：推特、

音频自动语音识别（ASR）性能：GPT-4o在所有语言上的语音识别性能上都有显著提升，特别是在资源较少的语言上，相较于Whisper-v3模型表现更为出色。

音频翻译性能：GPT-4o在语音翻译方面达到了新的行业领先水平，并在多语言语音（MLS）基准测试中超越了Whisper-v3模型。

图3：音频自动语音识别（ASR）测试结果图4：音频翻译测试结果

资料来源：OpenAI官网、资料来源：OpenAI官网、

多语言和视觉评估测试：M3Exam基准测试是一个多语言和视觉评估的综合体，它包含来自其他国家标准化考试的多项选择题。GPT-4o在所以语言测试中展现出比GPT-4更强的能力。

视觉理解测试：GPT-4o在视觉能力方面达到了最强的能力，视觉能力超过了GPT-4Turbo、

Gemini1.0Ultra、Gemini1.5Pro、ClaudeOpus等多款主流大模型。

图5：M3Exam基准测试结果图6：视觉理解测试结果

资料来源：OpenAI官网、资料来源：OpenAI官网、

视觉+语音交互功能：发布会演示了通过即时手写数学问题，要求GPT-4o不告诉解决方案，只是给予过程的提示。GPT-4o能在线理解问题进行指导。通过不断的引导以及给予提升，最终带领用户完成问题的解答。显示出GPT-4o视觉、语音的多模态交互功能（同时进行视觉理解、逻辑推理、语音输出等多项任务）。GPT-4o接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合作为输出。

图7：GPT-4o实时识别手写问题图8：引导用户解决问题

资料来源：OpenAI春季发布会视频、资料来源：OpenAI春季发布会视频、

实时理解桌面信息，解答问题并分析图表：OpenAI将推出桌面版ChatGPT，其可以被轻松集成到用户的工作流程中，很大程度提升了用户交互体验。发布会演示了ChatGPT分析代码的能力；首先将一段Python代码输入ChatGPT，并让ChatGPT用一句话总结这段代码在做什么。ChatGPT能够快速理解代码用于获取日常天气数据，随后又详细说明了其对天气数据进行了哪些后续分析。此次桌面版ChatGPT的推出，推动了大模型应用场景的落地，更像真人交互的AIAgent。GPT4o在电脑桌边部署或将预示着未来AI终端市场将迎来革命。

图9：GPT-4o识别桌面代码图10：GPT-4o分析图表

资料来源：OpenAI春季发布会视频、资料来源：OpenAI春季发布会视频、

具备情绪感知能力：发布会演示了当用户通过视频向ChatGPT展示情绪，并要求ChatGPT识别他当下的心情。GPT4-o能够通过视频精确的识别用户的情绪；同时当受到夸赞时，GPT-4o也可以根据场景输出与真人相仿的情绪、语气；用户在对话中可以随时打断，与真实对话场景更为相似。此前大模型仅在文本交互方面有较强的能力；伴随着GPT-4o的推出大模型在情感理解、对话连贯性等方面有所改善，未来生成式AI将提供更好的人机交互体验，预计大模型的实用性将大幅提升。

图11：GPT-4o输出与真人相仿的情绪图12：GPT-4o通过视频识别人类情绪

资料来源：OpenAI春季发布会视频、资料来源：OpenAI春季发布会视频、

2谷歌I/O开发者大会