大语言模型通识微课课件:大模型预训练的数据来源.pptx

大语言模型通识微课课件:大模型预训练的数据来源.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;一般情况下用于预训练的都是大模型,具备复杂网络结构,众多参数量,以及在足够大的数据集下进行训练而产生的模型。在自然语言处理领域,预训练模型往往是语言模型,其训练是无监督的,可以获得大规模语料。同时,语言模型又是许多典型自

然语言处理任务的基础,

如机器翻译、文本生成、

阅读理解等。

图5-1从语言模型嵌入;(1)在RNN(循环神经网络)模型中,每一个词嵌入的输出是要参考前面已经输入过的数据,所以叫做上下文化词嵌入。

(2)不止要考虑每个词嵌入前文,同时还要考

虑后文,所以再从句尾向句首训练。

(3)使用多层隐藏层后,最终的词嵌入=该词

所有层的词嵌入进行加权平均。;训练大语言模型需要数万亿的各类型数据。如何构造海量“高质量”数据对于大模型的训练至关重要。研究表明,预训练数据是影响大模型效果及样本泛化能力的关键因素之一。大模型采用的预训练数据需要覆盖尽可能多的领域、语言、文化和视角,通常来自网络、图书、论文、百科和社交媒体等。;OpenAI训练GPT-3使用的主要数据来源,包含经过过滤的CommonCravwl、WebText2、Books1、Books2及英文维基百科等数据集。通过词元方式对数据进行切分。为了保证模型使用更多高质量数据进行训练,在GPT-3训练时,根据数据来源的不同,设置不同的采样权重。

Meta公司研究人员在训练OPT模型时,采用了混合RoBERTa、Pile和PushShift.ioReddit数据的方法。;大模型预训练所需的数据来源大体上分为通用数据和专业数据两大类。

通用数据在大模型训练数据中占比非常高,主要包括网页、图书、新闻、对话文本等不同类型的数据,具有规模大、多样性和易获取等特点,因此支持大模型的语言建模和泛化能力。

专业数据包括多语言数据、科学文本数据、代码及领域特有资料等。虽然专业数据在大模型中所占比例通常较低,但是其对改进大模型在下游任务上的特定解决能力有着非常重要的作用。专业数据种类非常多,大模型使用的专业数据主要有三类,包括多语言数据、科学文本数据和代码。;

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档