量化数据对齐在下游模型性能中的重要性-计算机科学-人工智能-大语言模型.pdfVIP

下载本文档

0
0
约2.32万字
约 11页
2025-07-23 发布于中国
举报
版权申诉

量化数据对齐在下游模型性能中的重要性-计算机科学-人工智能-大语言模型.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

量化数据对齐

在下游模型性能中的重要性

*1*1*1*1*1

KrrishChawlaAryanSahaiMarioDePaviaSudharsanSundarBrandoMiranda

*11

ElyasObbadSanmiKoyejo

Abstract1.介绍

在大型语言模型（LLMs）领域的研究中，历来强调

与传统强调数据集规模不同，我们探讨用于预训练的数据集的大小，声称这是决定LLM性

了数据对齐——一个经常被忽视的数据质能的主要因素之一(Chowdheryetal.,2022;Nostal-

本量方面——在训练有能力的大型语言模型gebraist,2022;OpenAI,2023;Google,2023b)。实证

译（LLMs）中的作用。为此，我们使用基于证据表明了这一趋势，因为基于大数据集训练的模

中任务向量的任务2向量（Task2Vec-based）型表现出更优的性能。值得注意的是，GPT-4，其

3对齐系数作为两个数据集之间相似性的定假设使用了1拍字节（petabyte）的数据集，在响应

v量度量，以量化训练数据和评估数据之间质量和上下文准确性方面明显超越了训练数据量相

9的对齐程度对下游性能的影响。具体来说，对较少的45太字节（terabytes）的GPT-3(OpenAI,

4我们在两种设置下进行了控制干预性的实2023)。然而，新兴的研究表明，其他维度，如数据集

0验：1.不同预训练（pt）与评估数据集之多样性，在LLM的有效性中也扮演着关键角色，高

1间增加的对齐系数的影响，2.领域特定微性能模型通常源自具有高多样性系数的数据集(Lee

5调（ft）与领域特定评估之间增加的对齐系etal.,2023)。

:数的影响。我们探讨的领域特定任务是自当前讨论主要强调数据集的规模是其有效预训练

i动形式化——自然语言和代码之间的机器或微调模型能力的关键因素，经常侧重于定量指标

r翻译，用于正式验证。在两种设置下，我——特别是数据集本身的大小。(Leeetal.,2023)然

们发现模型训练和评估数据的对齐系数与而，这项研究旨在改变这一范式，考虑定性评估，尤

其下游任务上的损失/困惑度存在强烈的、其是数据集与特定评估任务的一致性。在先前研究

可预测的负相关关系。这些发现表明需要中用于量化数据集一致性的方法()的基础上，我们

重新评估LLM训练方法，展示了与数据数的研究旨在考察数据质量在预训练和微调过程中的

量相比，数据对齐的相关性，特别是在自作用，验证增加数据一致性可以显著提高大语言模

动形式化等专业化下游任务中。

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

量化数据对齐在下游模型性能中的重要性-计算机科学-人工智能-大语言模型.pdfVIP