ChatGPT技术演进及研究框架分析报告.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中信建投证券 CHINA SECURITIES 证券研究报告•行业动态 报告 ChatGPT技术演进及研究框架 发布日期:2023年3月3日 核心观点 •核心观点:Transformer模型融合了词向量、注意力机制和预训练模式的诸多优势,其出现标志着深度学习进入大模型时代。OpenAI推出基 于Transformer和人类反馈强化学习的ChatGPT 以其强大的语义理解和生成能力引爆了市场。技术侧重点理解大模型训练中的核心四要素:模 型参数、训练数据、训练方法以及训练效率。随着预训练自然语 模型进入巨量化参数时代,模型算力需求迈上新台阶。相关投资机遇中, 建议重点关注国产AI芯片供应链、海内外大模型相关垂直应用落地情况。 •核心技术发展推动自然语 处理逐步成熟。对词向量的关注明确了训练目标,构建起语义信息和数据之间的桥梁;注意力机制增强上下文理 解能力,提高语义信息学习能力;Transformer等模型推动计算结构从串行走向并行,大幅提升算法和语 模型的训练速度;预训练明确了训 练思路,解决了数据量不足的问题,降低了模型应用的门槛。以上四点核心进展带来了语 模型语 理解和生成能力的大幅提升,人工智能 语 模型逐步走向预训练大模型。对应行业发展,谷歌和OpenAI先后于2018年提出基于Transformer-Encoder 的BERT和基于Transformer- Decoder 的GPT 。与此同时,国内外的其他技术巨头也纷纷加快自然语 处理模型研发进程。 •训练好大模型的四要素:模型参教、训练数据、训练方法以及训练效率。在模型参数上,参数量越大,大模型性能往往越好,当参数量提升 到一定程度后性能可能会产生跨越式提升;训练数据方面,大模型对数据量和数据质量均提出了更高要求,高质量的数据集在模型训练过程 中带来了更高的边际收益;在训练方法上,一方面需要更充分的预训练以及增大预训练难度,另一方面使用Prompt或Fine-tune可以显著提高 模型在下游应用场景的表现;在训练效率上,并行计算、显存优化与模型稀疏性能显著提升大模型训练效率。 •随着预训练自然语 模型进入巨量化参数时代,模型算力需求迈上新台阶。当前大规模的自然语 模型进入了千亿参数时代,模型的训练算 力显著提升,例如GPT-3模型参数量为1750亿,训练算力需求为3.1 E+23 flops,如采用1000块英伟达A 100芯片提供算力,需要不间断训练55 天,可以估算单次训练租用云服务器的成本是328万美金。大模型在商业化落地之后,大量的客户访问还会带来不菲的运行成本,近期 ChatGPT官网每日访客数量接近5000万,估算云上月租金576万美元/每月,头部企业开发大模型竞争力更强。 •后续关注:国产AI芯片及大模型相关应用落地。算力端重点关注国产AI芯片、英伟达供应链、 AI芯片昇腾供应链。算法应用端重点关注 国内相关企业如 、百度及阿里等的大模型落地情况和相关垂直应用供应商,以及国内公司利用OpenAI技术在海外应用的产品进展。 麻中信建投址券 xQIIJ/ CHINA SECURITIES 目录 一、NLP算法发展历程介绍 二训练好大模型的要素 三、算力需求的展望 四、投资逻辑梳理 中信建投址券 CHINA SECURITIES 1. 1 早期自然语 处理 (NLP):基于规则方法/统计方法 •第一阶段(1950s-1980s )基于规则的方法:基于语 学家制定的规则完成相关任务。 优点:自由设计,灵活性强;不存在对于训练数据的依赖 缺点:研究强度大,泛化能力差;实践性差,无法从训练数据中学习和迭代 •第二阶段(1980s-2000s )基于统计的方法:将语 问题转化为概率问题进行模型构建。 优点:数据驱动;相较于规则模型泛化能力强 缺点:受训练数据集的影响大;缺乏对于语 知识的考虑;模型可解释性差 图表:基于规则的方法 图表:基于统计的

您可能关注的文档

文档评论(0)

鼎天教育 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月13日上传了教师资格证

1亿VIP精品文档

相关文档