- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1OpenAI发布GPT4-o模型
5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。
GPT-4o是一个跨越文本、音频和视频的端到端模型,这意味着所有输入和输出都是由同一个神经网络进行处理,推动了性能的提升。GPT-4o在多语言、音频、视觉能力创下了新的SOTA。在LMSYS发布的最新大模型测评中,GPT-4o性能呈现断崖式大幅领先其他模型。
图1:模型性能测试对比 图2:OpenAICEOSamAltman转发GPT-4o测评分数
资料来源:OpenAI官网、 资料来源:推特、
音频自动语音识别(ASR)性能:GPT-4o在所有语言上的语音识别性能上都有显著提升,特别是在资源较少的语言上,相较于Whisper-v3模型表现更为出色。
音频翻译性能:GPT-4o在语音翻译方面达到了新的行业领先水平,并在多语言语音(MLS)基准测试中超越了Whisper-v3模型。
图3:音频自动语音识别(ASR)测试结果 图4:音频翻译测试结果
资料来源:OpenAI官网、 资料来源:OpenAI官网、
多语言和视觉评估测试:M3Exam基准测试是一个多语言和视觉评估的综合体,它包含来自其他国家标准化考试的多项选择题。GPT-4o在所以语言测试中展现出比GPT-4更强的能力。
视觉理解测试:GPT-4o在视觉能力方面达到了最强的能力,视觉能力超过了GPT-4Turbo、
Gemini1.0Ultra、Gemini1.5Pro、ClaudeOpus等多款主流大模型。
图5:M3Exam基准测试结果 图6:视觉理解测试结果
资料来源:OpenAI官网、 资料来源:OpenAI官网、
视觉+语音交互功能:发布会演示了通过即时手写数学问题,要求GPT-4o不告诉解决方案,只是给予过程的提示。GPT-4o能在线理解问题进行指导。通过不断的引导以及给予提升,最终带领用户完成问题的解答。显示出GPT-4o视觉、语音的多模态交互功能(同时进行视觉理解、逻辑推理、语音输出等多项任务)。GPT-4o接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合作为输出。
图7:GPT-4o实时识别手写问题 图8:引导用户解决问题
资料来源:OpenAI春季发布会视频、 资料来源:OpenAI春季发布会视频、
实时理解桌面信息,解答问题并分析图表:OpenAI将推出桌面版ChatGPT,其可以被轻松集成到用户的工作流程中,很大程度提升了用户交互体验。发布会演示了ChatGPT分析代码的能力;首先将一段Python代码输入ChatGPT,并让ChatGPT用一句话总结这段代码在做什么。ChatGPT能够快速理解代码用于获取日常天气数据,随后又详细说明了其对天气数据进行了哪些后续分析。此次桌面版ChatGPT的推出,推动了大模型应用场景的落地,更像真人交互的AIAgent。GPT4o在电脑桌边部署或将预示着未来AI终端市场将迎来革命。
图9:GPT-4o识别桌面代码 图10:GPT-4o分析图表
资料来源:OpenAI春季发布会视频、 资料来源:OpenAI春季发布会视频、
具备情绪感知能力:发布会演示了当用户通过视频向ChatGPT展示情绪,并要求ChatGPT识别他当下的心情。GPT4-o能够通过视频精确的识别用户的情绪;同时当受到夸赞时,GPT-4o也可以根据场景输出与真人相仿的情绪、语气;用户在对话中可以随时打断,与真实对话场景更为相似。此前大模型仅在文本交互方面有较强的能力;伴随着GPT-4o的推出大模型在情感理解、对话连贯性等方面有所改善,未来生成式AI将提供更好的人机交互体验,预计大模型的实用性将大幅提升。
图11:GPT-4o输出与真人相仿的情绪 图12:GPT-4o通过视频识别人类情绪
资料来源:OpenAI春季发布会视频、 资料来源:OpenAI春季发布会视频、
2谷歌I/O开发者大会
5
您可能关注的文档
- “Beta加强器”,当下险企股债配置及投资弹性分析.docx
- “江苏模式”存量房“以旧换新”:城投板块的新机遇?.docx
- “学海拾珠”系列之一百八十九:基于复合模型构造行业ETF组合.docx
- 《光大投资时钟》第十三篇:历次降息前后金价表现复盘.docx
- 4月财政数据点评:政府性基金支出节奏偏慢.docx
- 4月财政数据点评:中央支出增速维持高位,超长期国债助力财政发力.docx
- 4月财政数据点评-财政发力:有支撑有隐忧.docx
- 4月份经济数据及517地产政策解读:扩内需重在稳地产,政策加码多管齐下.docx
- 4月交易所及银行间托管数据点评:4月存款搬家后的首份托管数据.docx
- 4月经济数据点评:地产“组合拳”如期而来.docx
- AI行业深度跟踪报告(二):铜互联,数据中心通信网络重要解决方案.docx
- A股策略当前地产链如何演绎?.docx
- A股策略展望:地产政策落地后,是核心资产的春天.docx
- A股量化择时研究报告-金融工程:大盘价值拉动估值上行.docx
- A股趋势与风格定量观察:地产政策催化,市场再度上涨.docx
- A股投资启示录(二十六):基于FCF-ROE和DCF定价模型的策略框架.docx
- A股中观景气全景扫描(5月第3期):A股景气整体回升,中游材料/可选消费景气回升明显.docx
- OpenAI、谷歌产品发布总结:手机AI有望带来海量云端算力需求.docx
- OpenAI推出全新大模型GPT4o,重视AI落地终端趋势和自主可控.docx
- SW(09988.HK)FY2024Q4季报点评:积极投入推动营收超预期,多项业务增长亮眼.docx
文档评论(0)