大语言模型基础(微课版）课件第5章大模型预训练数据.pptx

下载文档

0
0
约1.54万字
约 100页
2024-12-18 发布于山东
举报
版权申诉
保障服务

大语言模型基础(微课版）课件第5章大模型预训练数据.pptx

1、本文档共100页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;;一般情况下，用于预训练的都是具备复杂网络结构，众多参数量，以及足够大数据集的大模型。在自然语言处理领域，预训练模型往往是语言模型（见图5-1），其训练是无监督的，可以获得大规模语料。同时，语言模型又是许多典型自然语言处理任务的基础，如机器翻译、文本生成、阅读理解等。;

图5-1从语言模型嵌入;（1）在RNN（循环神经网络）模型中，每一个词嵌入的输出要参考前面已经输入过的数据，所以叫做上下文词

嵌入。

（2）除了考虑每个词嵌入前文，同时还要

考虑后文，所以再从句尾向句首训练。

（3）使用多层隐藏层后，最终的词嵌入=

该词所有层的词嵌入的加权平均（见右图）。

图5-2从句子中训练;训练大模型需要数万亿各类型数据。如何构造海量“高质量”数据对于大模型的训练至关重要。研究表明，预训练数据是影响大模型效果及样本泛化能力的关键因素之一。大模型预训练数据要覆盖尽可能多的领域、语言、文化和视角，通常来自网络、图书、论文、百科和社交媒体等。;;PART01;OpenAI训练GPT-3使用的主要数据来源，包含经过过滤的CommonCravwl、WebText2、Books1、Books2及英文维基百科等数据集。其中CommonCrawl的原始数据有45TB，过滤后仅保留了570GB的数据。通过词元方式对上述数据进行切分，大约包含5000亿个词元。为了保证模型使用更多高质量数据进行训练，在训练GPT-3时，根据数据来源的不同，设置不同的采样权重。在完成3000亿个词元的训练时，英文维基百科的数据平均训练轮数为3.4次，而CommonCrawl和Books2仅有0.44次和0.43次。;另一个例子，由于CommonCrawl数据集的过滤过程繁琐复杂，Meta公司的研究人员在训练OPT模型时，采用了混合RoBERTa、Pile和PushShift.ioReddit数据的方法。由于这些数据集中包含的绝大部分数据都是英文数据，因此OPT也从CommonCrawl数据集中抽取了部分非英文数据加入训练数据。

大模型预训练所需的数据来源大体上分为通用数据和专业数据两大类。;通用数据在大模型训练数据中占比非常高，主要包括网页、图书、新闻、对话文本等不同类型的数据，具有规模大、多样性和易获取等特点??因此支持大模型的语言建模和泛化能力。;网页是通用数据中数量最多的一类。随着互联网的日益普及，人们通过网站、论坛、博客、App创造了海量的数据。网页数据使语言模型能够获得多样化的语言知识并增强其泛化能力。爬取和处理海量网页内容并不是一件容易的事情，因此一些研究人员构建了ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等开源网页数据集。虽然这些爬取的网络数据包含大量高质量的文本（如维基百科），但也包含非常多低质量的文本（如垃圾邮件等）。因此，过滤并处理网页数据以提高数据质量对大模型训练非常重要。;图书是人类知识的主要积累方式之一，从古代经典到现代学术著作，承载了丰富多样的人类思想。图书通常包含广泛的词汇，包括专业术语、文学表达及各种主题词汇。利用图书数据进行训练，大模型可以接触多样化的词汇，从而提高其对不同领域和主题的理解能力。相较于其他数据库，图书也是最重要的，甚至是唯一的长文本书面语的数据来源。图书提供了完整的句子和段落，使大模型可以学习到上下文之间的联系。这对于模型理解句子中的复杂结构、逻辑关系和语义连贯性非常重要。;图书涵盖了各种文体和风格，包括小说、科学著作、历史记录等等。用图书数据训练大模型，可以使模型学习到不同的写作风格和表达方式，提高大模型在各种文本类型上的能力。受限于版权因素，开源图书数据集很少，现有的开源大模型研究通常采用Pile数据集中提供的Books3和BookCorpus2数据集。;对话文本是指有两个或更多参与者交流的文本内容。对话文本包含书面形式的对话、聊天记录、论坛帖子、社交媒体评论等。研究表明，对话文本可以有效增强大模型的对话能力，并潜在地提高大模型在多种问答任务上的表现。对话文本可以通过收集、清洗、归并等过程从社会媒体、论坛、邮件组等处构建。相较于网页数据，对话文本数据的收集和处理会困难一些，数据量也少很多。常见的对话文本数据集包括PushShift.ioReddit、UbuntuDialogueCorpus、DoubanConversationCorpus、ChromiumConversationsCorpus等。此外，还提出了使用大模型自动生成对话文本数据的UltraChat方法。;专业数据包括多语言数据、科学文本数据、代码及领域特有资料等。虽然专业数据在大模型中所占比例

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大语言模型基础(微课版）课件第5章大模型预训练数据.pptx