人工智能行业专题：ChatGPT开启AI新纪元，AIGC投资梳理.docxVIP

下载本文档

0
0
约1.4万字
约 27页
2023-04-19 发布于湖南
举报
版权申诉

人工智能行业专题：ChatGPT开启AI新纪元，AIGC投资梳理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能行业专题：ChatGPT开启AI新纪元，AIGC投资梳理一、ChatGPT 开启 AI 新纪元，指明 NLP 生成领域的技术方向 ChatGPT 指明了 NLP 生成领域的技术方向。预训练语言模型对于 NLP 理解领域以及生成领域的问题都是相当有效的，在过去几年里，发展出的主要模型有 Bert 和 GPT。从文本对话的过程来看，理解到生成之间的连接是一个关键问题。然而，Bert 在 NLP 理解领域获得了巨大的成功，但是在 NLP 生成领域却表现不佳，这是由于 Bert 训练时所采用的语言模型所决定的。Bert 采用的是 DAE 语言模型，只学习到了词的上下文表征的能力，即理解语言的能力，但没有学习到如何组织语言的能力。而 chatGPT 成功解决了这个问题，可以说 ChatGPT 指明了 NLP 生成领域的技术方向。 ChatGPT 从技术本源上加速 AIGC 发展。AIGC 的底层技术主要有 NLP、GAN、扩散模型等，其中的代表就是语言生成中的 chatGPT 和图像生成中的扩散模型（Diffusion Model）。2022 年 8 月 StabilityAI 宣布开源 Stable Diffusion 模型，AI 图像生成成本迅速下降，并且能获得惊人的高质量绘画作品，达到学习几年、十几年的画师同等水平。而 2022 年 11 月 OpenAI 发布的 chatGPT 虽然是自然语言生成领域的产品，但是可以生成 AI 绘画提示词，或生成调用计算引擎，从而进一步加速 AI 绘画、AI 游戏、AI 音视频领域的应用。我们认为，ChatGPT 对 AIGC 发展的意义在于：一方面，GPT 作为 NLP 生成领域模型的突破，将迅速解决 AI 文本生成、AI 代码生成等领域的痛点；另一方面，AI 文本生成、AI 代码生成作为 AI 音视频、游戏等其他领域的技术基础，其突破发展也将加速 AIGC 在音视频、游戏等场景中的渗透（比如生成 AI 绘画提示词，或生成调用计算引擎）。（一）ChatGPT 通过引入 RLHF 技术解决生成模型的核心问题，大大提高类人成熟度 ChatGPT 是在 GPT 3.5 大语言模型（LLM,即 Large Language Model）的基础上，加入“基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）”来不断微调（Fine-tune）预训练语言模型，使得 LLM 模型学会理解不同类型的命令指令，并通过多重标准合理判断基于给定的 prompt 输入指令，输出的是否为优质信息（这些标准包括：富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等）。因此，ChatGPT 使得人机对话更加人性化，更富有逻辑性，大大提高了 AI 的类人成熟度。 ChatGPT 的技术发展路径：从 GPT-1 到 InstructGPT，数据量与参数量不断增加，模型精度和语言能力提升。1）2018 年，在自然语言处理领域（NLP）刚兴起时，OpenAI 就推出了初代 GPT，它的运行逻辑是：先通过无标签数据学习生成语言模型，并能够运用于一些与有监督任务无关的 NLP 任务中。此后再根据特定的下游任务进行有监督的微调，提高其泛化能力。2）2019 年推出的 GPT-2 扩展了网络参数和数据集，进行多任务学习，可以在数据量足够丰富且模型容量足够大时，通过训练语言模型就能够完成有监督学习的任务。3）对比 GPT-2，2020 年推出的 GPT-3 最显著的特征是庞大的数据量和参数投入，整体训练过程耗资 1200 万美元，投入数据量达上万亿，模型参数量达到 1750 亿。GPT-3 延续了前两代 GPT 的技术架构，但改变了“大规模数据集预训练+下游数据标注微调”的方式，采用情境学习（in-context learning）来提高模型对话输出的性能。GPT-3 的规模和语言能力几乎是最强大的。它能在不做微调的情况下，在一些传统的 NLP 任务中表现得更好，包括实现闭卷问答、模式解析、纯语言建模、机器翻译等；在新的领域，GPT-3 将 NLP 的应用扩展到缺乏足够训练数据的领域，例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。然而，GPT-3 在推理和理解能力上还有较长的路要走，在自然语言推理（NLI）任务中表现不佳。 ChatGPT 在 InstructGPT 模型上做改进，实现更好地遵循用户意图、更少的虚假信息。OpenAI在2022年3月发布了InstructGPT。该语言模型通过“基于人类反馈的强化学习（RLHF）和监督学习”来提高输出质量。虽然 InstructGPT 的参数量