人工智能行业动态：文心大模型4.5和X1发布，关注英伟达GTC2025发布会.docx

下载文档

21
0
约1.02万字
约 13页
2025-03-28 发布于境外
举报
版权申诉
保障服务

人工智能行业动态：文心大模型4.5和X1发布，关注英伟达GTC2025发布会.docx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

TOC\o1-1\h\z\u一、行业变化 1

二、持续关注标的 3

三、行情回顾 3

四、产业要闻 7

五、重要公告 8

六、风险分析 9

一、行业变化

百度发布文心4.5及X1两款大模型

3月15日，百度正式发布文心大模型4.5及文心大模型X1，目前，两款模型已在文心一言官网上线，免费向用户开放。同时，文心大模型4.5已上线百度智能云千帆大模型平台，企业用户和开发者登录即可调用API；文心大模型X1也即将在千帆上线。百度搜索、文小言APP等产品，将陆续接入文心大模型4.5和文心大模型X1，为用户带来更多元的体验。

图表1：百度发布文心4.5及X1

心一言，

文心大模型4.5：百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码

能力显著提升。文心大模型4.5具备优秀的多模态理解能力，能对文字、图片、音频、视频等内容进行综合理解。此外，文心大模型4.5也拥有“高情商”，网络梗图、讽刺漫画等等均能正确理解。

图表2：文心大模型4.5多模态能力（左）及文本能力（右）对比

心一言，

文心大模型4.5能力显著增强，关键技术包括：

FlashMask动态注意力掩码：加速大模型灵活注意力掩码计算，有效提升长序列建模能力和训练效率，优化长文处理能力和多轮交互表现；

多模态异构专家扩展技术：根据模态特点构建模态异构专家，结合自适应模态感知损失函数，解决不同模态梯度不均衡问题，提升多模态融合能力；

时空维度表征压缩技术：在时空维度对图片和视频的语义表征进行高效压缩，大幅提升多模态数据训练效率，增强了从长视频中吸取世界知识的能力；

基于知识点的大规模数据构建技术：基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术，构建高知识密度预训练数据，提升模型学习效率，大幅降低模型幻觉；

基于自反馈的Post-training技术：融合多种评价方式的自反馈迭代式后训练技术，全面提升强化学习稳定性和鲁棒性，大幅提升预训练模型对齐人类意图能力。

文心大模型X1：文心大模型X1具备更强的理解、规划、反思、进化能力，并支持多模态，是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型，文心大模型X1兼备准确、创意和文采，在中文知识

问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。作为能自主运用工具的大模型，文心大模型X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

关键技术方面，文心大模型X1主要有以下核心技术：

递进式强化学习训练方法：创新性地应用递进式强化学习方法，在创作、搜索、工具调用、推理

等场景全面提升模型的综合应用能力；

基于思维链和行动链的端到端训练：针对深度搜索、工具调用等场景，根据结果反馈进行端到端的模型训练，显著提升训练效果；

多元统一的奖励系统：建立了统一的奖励系统，融合多种类型的奖励机制，为模型训练提供更加鲁棒的反馈。

OpenAI发布Agent工具

本周三，OpenAI发布一套新的API和内置工具、AgentsSDK，专门用于简化Agent应用程序的开发，包括：①新的ResponsesAPI，将ChatCompletionsAPI简单性与AssistantsAPI工具使用功能相结合，用于构建智能体（Agent）。②内置工具，包括网络搜索、文件搜索、计算机使用（ComputerUse）。③新的智能体SDK（AgentsSDK），用于编排单智能体和多智能体工作流。④集成的可视化工具，用于跟踪和检查智能体工作流执行情况。

ResponsesAPI及内置工具：ResponsesAPI专为那些希望将OpenAI模型和内置工具轻松组合到应用程序中的开发人员设计。ResponsesAPI是一个统一API，可支持多轮交互和工具调用。通过一个ResponsesAPI调用，开发人员将能够使用多个工具和模型回合来解决日益复杂的任务。ResponsesAPI将支持新的内置工具，如网络

搜索、文件搜索和计算机使用。其中，“网络搜索工具”可让模型即时访问互联网信息，与驱动ChatGPTSearch

是相同模型提供支持。在SimpleQA（一个评估LLM在回答简短事实问题方面准确性的基准）上，GPT-4o和

GPT-4omini的得分分