网站大量收购闲置独家精品文档,联系QQ:2885784924

ChatGPT原理解析介绍.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ChatGPT原理解析

尽管OpenAI没有公布ChatGPT的论文和相关的训练和技术细节,但我们可以从其兄弟模型InstructGPT以及网络上公开的碎片化的情报中寻找到实现ChatGPT的蛛丝马迹。根据OpenAI所言,ChatGPT相对于InstructGPT的主要改进在于收集标注数据的方法上,而整个训练过程没有什么区别,因此,可以推测ChatGPT的训练过程应该与InstructGPT的类似,大体上可分为3步:

1.预训练一个超大的语言模型;

2.收集人工打分数据,训练一个奖励模型;

3.使用强化学习方法微调优化语言模型。

1预训练超大语言模型

从GPT/Bert开始,预训练语言模型基本遵循这样一个两段式范式,即通过自监督方式来预训练大模型。然后再在此基础上,在下游具体任务上进行fine-turning(微调)。其中GPT因为用的是单向Transformer解码器,因此偏向于自然语言生成,而Bert用的是双向Transformer编码器,因此偏向于自然语言理解。因为Bert的及时开源和Google在业界的强大影响力,外加业务导向的AI应用公司寄希望的快速落地能力,那个时候绝大多数的从业者都更加看好Bert,哪怕是openai发布的GPT2也是反响平平,这也为后来的落后埋下了伏笔。

这种两段式的语言模型,其Capability(能力)是单一的,即翻译模型只能翻译,填空模型只能填空,摘要模型只能做摘要等等,要在实际任务中使用,需要各自在各自的数据上做微调训练,这显然很不智能,为了进一步向类似人类思维的通用语言模型靠齐,GPT2开始引入更多的任务进行预训练,这里的创新之处在于它通过自监督的模型来做监督学习的任务。经过这样训练的模型,能在没有针对下游任务进行训练的条件下,就在下游任务上有很好的表现。也就是说Capability有了较大的扩展,但此时的Alignment(对齐)还相对较弱,实际应用上还不能完全去除fine-turing,算是为zero-shotleaning(零样本学习)奠定了基础。为了解决Alignment问题,GPT3使用了更大的模型,更多的数据,并优化了in-contextlearning(上下文学习)的训练方式,即在训练时去拟合接近人类语言的Prompt(提示),以指导模型它该做些什么,这进一步提升了模型zero-shotlearning的能力,总而言之,语言模型在朝着越来越大的方向发展。

图1不同参数规模语言模型zero-shot效果对比

正如上面GPT3论文中的对比图所示,zero-shot极度依赖于大语言模型(LLM),可以说从GPT3开始的语言模型的发展,已经与缺乏资源的普通人无关了,自然语言处理的发展已经全面进入了超大语言模型时代,但这并不影响我们去理解和借鉴其思想。

ChatGPT也正是依赖于一个大规模的语言模型(LLM)来进行冷启动的,具体过程如图2所示:

图2初始化预训练语言模型

显然,由于参与初始模型微调的人工生成数据量很少,对于整个语言模型的训练数据而言是沧海一粟,因此初始化语言模型时,这一步的微调对ChatGPT整体而言大概是可有可无的。

尽管经过精心设计的LLM的Capability和Alignment均已达到非常好的水平,但是仅仅凭借预训练或加一些监督文本微调得到的语言模型终究还是无法应对人类所生活的真实语言环境的复杂性,这种模型在实际应用中时长会暴露以下缺陷:

提供无效回答:没有遵循用户的明确指示,答非所问。

内容胡编乱造:纯粹根据文字概率分布虚构出不合理的内容。

缺乏可解释性:人们很难理解模型是如何得出特定决策的,难以确信回答的准确性。

内容偏见有害:模型从数据中获取偏见,导致不公平或不准确的预测。

连续交互能力弱:长文本生成较弱,上下文无法做到连续。

2训练人类偏好模型

为了进一步增强语言模型的效果,人们试图将强化学习引入到语言模型之中。但由于机器难以衡量自然语言输出的质量好坏,这个研究方向一直发展缓慢,并且不被专业人员看好。尽管DeepMind早就提出了RLHF(ReinforcementLearningwithhumanfeedback)的训练方法,但也一直没有在实际产品中看见成效。OpenAI在InstructGPT中用一个小规模的GPT3模型通过RLHF微调后产生了比原始大GPT3更好的效果见证了RLHF的强大,随后的ChatGPT真正将RLHF发扬光大。

图3原始RL框架

回想一下原始的强化学习框架,Agent要基于环境给出的奖励信号来不断优化自身的策略。那么在我们的聊天机器人的场景下,显然语言模型作为一个Agent,它基于用户输入上下文语境(Environment)来输出文本(action)。那么由什么来定义这个奖励函数呢?正如前文所言,

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档