- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;大语言模型的底层逻辑包括深度学习架构、训练机制与应用场景等。近年来,大模型取得显著进展,通过扩大数据大小和模型大小,这些大模型提高了惊人的涌现能力,包括上下文学习(ICL)、指令微调和思维链(CoT)。
另一方面,尽管大模型在大多数自然语言处理任务中表现出了令人惊讶的零样本/少样本推理性能,但天生对视觉“视而不见”,因为它们只能理解离散文本。;简单来说,GPT大模型是一种基于深度学习的自然语言处理模型,它生成文本(文生文)结果的原理,就是通过学习语言的规律,然后根据已有的语境(上文),预测下一个单词(频率),从而生
成连贯的文本。这一点,和人类说话或写文章
是类似的。
图3-1通过预测生成文本;比如,人类对话中,“我”后面通常会跟“是”,“你”后面通常会跟“好”等等,这就是一种语言规律。GPT模型通过类似方式来学习语言规律。在模型训练过程中,GPT模型会阅读大量,甚至是数以亿计的文本数据,从中学习到这些文本中非常复杂的语言规律。这就是为什么GPT模型可以生成非常自然、连贯文本的原理。;GPT模型的内部结构由多层神经网络组成,每一层神经网络都可以抽取文本的某种特征。例如:
·第一层神经网络抽取出单词的拼写规律;
·第二层神经网络抽取出词性的规律;
·第三层神经网络抽取出句子的语法规律等等。
通过层层抽取,GPT模型可以学习到深层次的语言规律。实际上,其工作原理还涉及到很多复杂的数学和计算机科学知识。;大模型的上下文学习能力,简单来说就是,对于一个预训练好的大模型,迁移到新任务上的时候,并不需要重新训练,而只需要给模型提供任务描述(可选项),输入几个示例(输入-输出对),最后加上要模型回答的查询,模型就能为新输入生成正确输出查询对应的答案,而不需要对模型做微调。
GPT系列模型都属于自回归类,就是根据当前输入预测下一个词,然后将预测结果和输入拼接再当作模型的输入预测下一个词,这样循环往复。;指令微调是一种通过在由(指令,输出)对组成的数据集结构上进一步训练大模型的过程,以增强大??型的能力和可控性。其中,指令代表模型的人类指令,输出代表遵循指令的期望输出。这种结构使得指令微调专注于让模型理解和遵循人类指令。这个过程有助于弥合大模型的下一个词预测目标与用户让大模型遵循人类指令的目标之间的差距。
指令微调可以被视为有监督微调的一种特殊形式。;举个例子:公司门禁用了人脸识别,而你只提供一张照片,门禁系统就能从各个角度认出你,这就是单一样本。可以把单一样本理解为用1条数据微调模型。在人脸识别场景里,单一样本很常见。
在自然语言处理中,用百度百科的数据、新闻等训练一个GPT模型,直接拿来做对话任务,这个就是零样本(无监督学习)。然后,发现里面胡说八道有点多,于是标注少量优质数据喂进去,这就是少样本。
少样本时应该标注哪些数据,将它们跟强化学习结合起来,就是人类反馈强化学习,这是ChatGPT的核心技术。;2021年8月份,李飞飞等学者联名发表一份200多页的研究报告《论基础模型的机遇与风险》,详细描述了当前大规模预训练模型面临的机遇和挑战。在文章中,大模型被统一命名为“基础模型”,论文肯定了基础模型对智能体基本认知能力的推动作用。
2017年Transformer结构的提出,使得深度学习模型参数突破,大模型蓬勃发展,已经出现多个参数超过千亿的大模型。参数量多,学习的数据量更多,模型的泛化能力更强,也就是一专多能,可以完成多个不同的任务。;(1)词嵌入层。将文本中的每个词汇转化为高维向量,确保模型可以处理连续的符号序列。这些向量编码词汇本身的含义,还考虑潜在关联。
(2)位置编码。为解决词语顺序问题,引入了位置编码机制,允许模型理解并记住单词之间的相对或绝对位置关系,使保留上下文信息。
(3)自注意力机制。这是核心部件,通过计算输入中每个位置的单词与其他所有位置单词的相关性,实现对句子全局建模。
(4)前馈神经网络(FFN)。用于进一步提炼和组合特征,增强模型对复杂语言结构的理解和表达能力。;大量实验证明,在高质量的训练语料进行指令微调的前提下,超过百亿参数量的模型才具备一定的涌现能力,尤其是在一些复杂的推理任务上。
然而,一般情况下人们并不具备如此大规模的计算资源。因此,要在训练和推理两个阶段采用一些优化策略,以满足在有限计算资源条件下训练大模型。
(1)自我监督学习。利用大规模无标签文本数据进行预训练时,主要采用如掩码语言模型(MLM)或自回归模型(GPT-style)等策略。
MLM通过对部分词汇进行遮蔽并让模型预测被遮蔽的内容来学习语言表征;而自回归模型则是基于历史信息预测下一个词的概率。;(2)微调阶段。预训练完成后,模型在特定任务上进行微
文档评论(0)