百度-市场前景及投资研究报告-大模型研究(三).pdf

百度-市场前景及投资研究报告-大模型研究(三).pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
证券研究报告·美股公司深度 软件与服务 百度:大模型研究笔记(三) 百度(BIDU.O)/百度集团 ( ) -SW 9888.HK 核心观点 维持 买入 大模型规模竞赛强度有望下降,精益优化可能成为主要方向,如 数据清洗、初始化策略、大批量训练等。另一方面,推理部署环 节的优化进度较快,主要思路包括调整模型架构实现计算并行度 提升,或通过捕捉参数结构实现混合精度推理,降低计算复杂度。 发布日期: 2023 年 06 月 21 日当 这些技术演进有望大幅降低大模型产品的部署、应用门槛,打开 前股价: 143.52美元/142.70 港元目 toC 产品的想象空间。我们认为中长期 AI 领域具备广阔前景, 标价格 6 个月: 173美元/169 港元 看好百度在 AIGC 领域的布局和先发优势。 大模型研究笔记(三) 模型结构方面,Meta 研究团队于 2023 年 5 月提出 Megabyte,基 于对 Transformer 架构做出改进:Transformer 架构是以 token 为 基本单位的,而 token 形式的目的是将输入数据转换成计算机可 以处理的形式,但 token 与单词并非一一对应,这等于带来额外 的分词成本。Megabyte 对模型处理的基础单元做出修改,从 token 改为 patch,此外引入局部模块预测 patch 内文本序列,相当于引 入二次注意力机制,最终实现计算成本降低、速度提升。 主要数据 / % 股票价格绝对相对市场表现( ) 预训练环节,现有超大参数模型部署端侧时受限于终端计算资源 和功耗,需要小、低延迟和低能耗的神经网络模型,从而节省成 1个月 3个月 12个月 本。混合精度训练是把 FP32 表示的权重、参数和激活值用 FP16、 13.71/3.00 9.02/-10.70 0.20/-23.14 INT8、INT4 重新表示,并且通过浮点数转定点数将连续的数值 12月最高/最低价(美元) 160.22/76.57 映射为离散化的数值,从而加快训练速度和降低存储占用。最新 总股本(万股) 34,959.72 的进展来自 ETH 的 SpQR,将剪枝思想迁移至推理环节的混合精 流通股本(万股) 27,751.54 度,在 1%的性能损失下大幅提升推理效率。 总市值(亿美元) 507.30 流通市值(亿美元) 507.30 下游调试方面,1)Alignmen

文档评论(0)

anhuixingxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档