- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第PAGE
第PAGE13页共NUMPAGES64页
大模型业务开发流程
大模型更复杂、参数量更大
大模型通常包含数十亿甚至更多的参数,模型大小可以达到数百GB甚至更大基于Tansformer的大模型采用了自注意力机制,这本身就带来大量的参数自注意力机制允许模型独立地考虑输入序列中的每个位置,并灵活地捕捉长距离依赖关系,这进一步增加了模型参数量的需求
在面对复杂且高维的数据分布时,较大的参数量可以让模型更好地拟合数据,减少偏差,提高模型在训练集上的表现特别是在处理自然语言这样的任务时,语言的丰富性和复杂性要求模型具备足够的容量去理解和生成各种各样的句子结构和语义
例如,根据资料推测的GPT3的参数量约为1750亿,MetaAI的开源的大语言模型LLaMa2也有7B(70亿参数)、13B(130亿参数)、70B(700亿个参数)三个版本
大模型所需数据量更大
与传统模型相比,大模型的参数量剧增,这也使得训练数据集也要适应参数的增加,大模型学习更多的数据,也进一步提高模型本身能力
下图是几个典型大模型的训练数据分布
大模型训练数据的多样性
训练大模型需要大规模、高质量、:多模态的数据集,通常需要从各个领域和多个数据源收集数据,这些数据可以是文本、图像、语音、视频等多种形式
大模型能力更强
更强的学习能力:由于大模型拥有更多的参数和更复杂的结构,它们可以更好地拟合数据,并具备更强的学习能力这使得大模型能够处理更大规模的数据集,更深入地发现数据中的规律和模式,从而在多个任务上展现出更高的性能
更好的泛化能力:大模型的泛化能力更强,这意味着它们在新数据或未见过的数据上也能表现出良好的性能这种能力使得大模型能够更好地适应各种实际应用场景,减少过拟合的风险
更强的多任务处理能力:大模型通常具有较强的多任务处理能力,这意味着它们可以在一个模型中同时处理多个任务,而无需为每个任务单独训练一个模型这种能力提高了模型的灵活性和效率,降低了维护成本
大型语言模型的训练过程
预训练数据集
大模型的数据集来源丰富多样,主要涵盖以下几个方面:互联网上的公开数据:互联网是一个巨大的数据宝库,其中包含了大量的文本、图片、视频等各类数据开发者可以通过爬取互联网上的这些数据来构建其数据集这些数据可能来自新闻网站、社交媒体、博客文章、论坛讨论等各种来源
专业数据库与机构发布的数据:许多专业机构、数据库和学术组织会公开发布经过整理和处理的数据集口这些数据集通常具有较高的质量和可靠性大模型可以利用这些数据进行训练,以提高其性能和准确性企业内部数据:对于某些定制化的大模型,企业可能会使用自己的内部数据来构建数据集这些数据可能包括企业的业务数据、用户行为数据、产品数据等,有助于模型更好地适应企业的实际需求用户生成内容:随着社交媒体和在线平台的普及,用户生成内容(如评论、评分、反馈等)也成为了大模型数据集的重要来源这些数据反映了用户的真实需求和偏好,有助于模型更好地理解和满足用户需求
数据并行
数据并行:由于训练数据集太大,需要将数据集分为N份,每一份分别装载到N个计算节点中,同时,每个计算节点持有一个完整的模型副本,分别基于每个计算节点中的数据去进行梯度求导然后,在计算节点0上对每个节点中的梯度进行累加,最后,再将节点0聚合后的结果广播到其他节点
张量并行
张量并行训练是将一个张量沿特定维度分成N块,每个设备只持有整个张量的1/N,同时不影响计算图的正确性这需要额外的通信来确保结果的正确性
流水线并行
pipeline并行方式,如下图所示,假设有四张NPU,将大模型按照层将参数切分为4份,依次放在device0,1,2,3上对于一份minibatch数据,先在device0上执行前向(对应图中灰色块F0),计算结束后将device0的结果发送到device1继续执行前向(对应图中黄色块F0),直到最后一个NPU,即device3完成前向后,立刻在device3上计算loss并执行反向计算(对应图中紫色块B0),反向计算直到device0完成后,在每张卡上完成优化器参数更新,进一步完成模型参数更新
人工智能大语言模型微调技术
人工智能大语言模型微调技术:SFT监督微调、LoRA微调方法、Ptuningv2微调方法、Freeze监督微调方法
SFT监督微调
SFT监督微调基本概念
SFT(SupervisedFineTuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型然后创建一个新的神经网络模型,即目标模型目标模型复制了源模型上除了输出层外的所有模型设计及其参数这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用微调
原创力文档


文档评论(0)