- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;大语言模型技术就像一把神奇的钥匙,正在为产品开发打开新世界的大门。无论是个人开发者想要借助这项技术来提升自己的技能和打造酷炫的产品,还是企业团队希望通过它在商业战场上取得竞争优势,都得学会运用大模型辅助产品的全流程开发与应用。
简单来说,使用预训练的大模型开发
的主要优势在于简化开发过程,降低
开发难度,而传统的机器学习开发则
需要更多的专业知识和资源投入。;在构建大模型前期准备中,基础设施最重要,但即便是提升了单个GPU的算力,训练超级规模的大模型也不是一件容易的事情,这是因为:
(1)GPU内存容量有限,使得即使在多GPU服务器上也无法适合大模型。
(2)所需的计算操作的数量可能导致不切实际的长训练时间。
各种模型并行性技术以及
多机多卡的分布式训练部
分解决了这两个挑战。;使用数据并行性,每个工作站都有一个完整模型的副本,输入数据集被分割,工作站定期聚合它们的梯度,以确保所有工作站都看到权重的一致版本。对于不适合单个GPU的大模型,数据并行性可以在
较小的模型碎片上使用。
在大模型开始训练之前,需要考虑吞吐量,估计
出进行端到端训练所需的总时间。对于搭建自有
的大模型来说,训练多大的规模参数就需要有多
大规模的算力。;对于初代大模型来说,数据收集以及后续处理是一件非常繁琐且棘手的事情,这一过程中需要面临诸多问题,比如数据许可、数据集特征和覆盖率、数据预处理的充分性、如何解决数据集偏差、如何解决数据集公平性、不同数据集的差异、数据隐私、数据安全等。
初代大模型的推出不仅是让人们能够充分利用大模型的便利性,也为更多大模型的推出铺平了道路,例如:ChatGPT训练了几乎所有能在公开渠道找到的数据,这对后续大模型开发提供了便利。;按类别划分的数据集分布在数据收集完成之后,需要按照一定的比例对数据集进行混合,数据混合旨在增强模型的泛化能力和抵抗对抗性攻击。这个过程通常与数据增强结合使用,有助于减轻过度拟合,提高模型的鲁棒性。
混合时也要考虑数据的大小和多样性,如果数据集非常庞大,多样性强,那么可以考虑使用较低的混合比例,因为已经有足够的数据来训练模型。但是如果数据集相对较小,多样性低,增加混合比例可能有助于增加样本数量,减轻过拟合。;大模型具有采样效率高的特点,但这意味着如果输入模型的数据充满拼写错误的单词、性质粗俗、包含大量目标语言之外的其他语言,或者具有不受欢迎的恶作剧特征,那么大模型最终的效果会存在问题。基于此,在对大模型进行训练之前,需要对收集到的数据进行预处理操作。
(1)数据清洗、过滤、语句边界检测、标准化。
(2)针对训练性能的数据转换。在训练机器学习模型时,需要对原始数据进行各种处理和转换,以提高模型的性能和泛化能力。
(3)分词器训练。用于将连续的文本序列分解成单个词汇或标记。;通过模型并行性,模型的图层将在多个设备之间共享。当使用相同转换器的模型时,每个设备可以分配相同数量的转换器层。一个批被分割成更小的微批;然后在微批次之间通过流水线执行。为了精确地保留严格的优化器语义,技术人员引入了周期性的管道
刷新,以便优化器步骤能够跨
设备同步。
图11-4默认的和交错的管道计划;实际上,大模型预训练的过程中需要注意的问题远不止这么简单。随着模型的增大,训练数据集规模的增长,数据并行就会出现局限性。当训练资源扩大到一定规模时,就会出现通信瓶颈,计算资源的边际效应显现,增加资源也没办法进行加速,这就是常说的“通信墙”。
除此之外,大模型训练可能还会遇到“性能墙”的困扰,这是指在某个特定任务或计算资源上,模型的性能无法继续有效提升的情况。当模型接近性能墙时,增加更多的计算资源或数据量可能不会显著改善模型的性能,因为模型已经达到了某种极限或瓶颈。;大模型训练成功的标准一般会通过定量分析和定性分析来回答。
首先是定量分析。观察大模型的训练损失,损失减少表明模型正在学习并拟合训练数据;检查大模型性能指标,常用指标包括准确率、精确度、召回率等。对回归任务,常用指标包括均方误差、平均绝对误差等。
其次是定性分析。通过合并检查点,将多个模型检查点合并为统一的检查点文件,从该检查点加载模型,然后,使用加载的模型来生成文本。
另外,也通过对验证集和测试集的评估来观察大模型的表现,观察大模型各项指标,观察大模型是否有过拟合的现象。;进行预训练之后,往往需要对大模型进行实验和微调处理,实验的作用是检验大模型是否训练成功,接下来需要进行微调处理。
微调处理对大模型有针对性的做出训练。通过微调,大模型在垂直领域的适应性会更强,准确率更高。这一过程通常称为价值观对齐,目的就是提高模型的性能、适应性和效率,充分利用大模型的通用知识,使其更好地适应不同的任务和领域。;训练过程中需要大量的GPU资源,在模型部署过程中也同样需要。可以通过模型缩减和压
文档评论(0)