大模型面试题-40-大模型（LLMs）训练集面.pdf

下载文档

0
0
约2.86千字
约 3页
2025-04-15 发布于山东
举报
版权申诉
保障服务

大模型面试题-40-大模型（LLMs）训练集面.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型（LLMs）训练集面

来自：AiGC面试宝典

2023年12月24日00:33

1.SFT（有监督微调）的数据集格式？

一问一答

2.RM（奖励模型）的数据格式？

一个问题+一条好回答样例+一条差回答样例

3.PPO（强化学习）的数据格式？

理论上来说，不需要新增数据。需要提供一些prompt，可以直接用sft阶段的问。另外，需要限制

模型不要偏离原模型太远（ptxloss），也可以直接用sft的数据。

4.找数据集哪里找？

推荐Alpaca-COT，数据集整理的非常全，眼花缭乱。

5.微调需要多少条数据？

取决于预训练数据和微调任务的数据分布是否一致，分布一致，100条就够，分布差异大就需要多

些数据，千条或者万条以上为佳。

自己的任务复杂或者下游任务行业比较冷门，如药品名称识别任务，则需要较多监督数据。还有微

调大模型时，一遍是记不住的。100条的微调数据，epochs=20才能稳定拟合任务要求。

6.有哪些大模型的训练集？

预训练数据集togethercomputer/RedPajama-Data-1T「红睡衣」开源计划总共包括三部分：

•高质量、大规模、高覆盖度的预训练数据集；

•在预训练数据集上训练出的基础模型；

•指令调优数据集和模型，比基本模型更安全、可靠。

预训练数据集RedPajama-Data-1T已开源，包括七个子集，经过预处理后得到的token数量大致可

以匹配Meta在原始LLaMA论文中报告的数量，并且数据预处理相关脚本也已开源。

完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB，解压后5TB。

CoT微调数据集：Alpaca-CoT里面包括常用的alpaca，CoT等数据集，有中文的。

7.进行领域大模型预训练应用哪些数据集比较好？

通过分析发现现有的开源大模型进行预训练的过程中会加入数据、论文等数据。主要是因为这些数

据的数据质量较高，领域相关性比较强，知识覆盖率（密度）较大，可以让模型更适应考试。给我

们自己进行大模型预训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重

要的数据。

8.如何选取和构建大模型微调数据？

•动机：在微调大模型时，首先需要解决的问题是“选取和构建大模型微调数据”，那如何选择

呢？

•问题一：什么样的数据才是最优的大模型微调数据？

1.数据的多样性：

一般情况下我们数据的分布都是符合一个长尾分布的。主要的几个类别数据占据了90%的数据量，

剩下的90%的类别只有10%的数据量。

举个栗子：小红书上，query的意图识别里，美食，穿搭，旅游攻略类非常多，但是还有一些同学

去搜大模型微调的数据技巧。

如果说我们直接采样一批线上的图文文本，直接送给标注的话，会存在一个严重的问题：他们标注

的数据大部分都是攻略类，技术类比较少，标了3个月才攒了几千条大模型技术文本，但是攻略类

已经成几万了。

这样搞肯定是不行的，人力成本方面的消耗是在是太大了，并且模型因为数据平衡的问题也没有特

别好

1.数据的标注质量；

2.数据的不确定性；

•问题二：如何构建大模型微调数据？

3.方法一：“self-instruct”的框架，通过自我生成来提升指令跟随能力。文章的流程是从语言模型

中生成指令、输入和输出样本，然后在使用这些数据微调原始模型之前进行清洗。

4.方法二：“主动学习”

主动学习有两个基本原则，在监督训练的时候，注意主动发现数据的两个方面，一个是数据多样

性，另外一个是数据的不确定性。这样讲是比较抽象的概念，那我们在大模型实践中如何体现呢？

第一，数据的多样性。

多样性即为数据的去重，去重这件事的核心是相似度度量，现在的相似度度量方法大家用的比较多

的是基于对比学习构造的语义向量这套思路，当然简单的基于词袋或者tfidf的方案也是可以的。有

了核心的相似度度量方法后，我们可以使用简单的onepass聚类方法进行过滤，考虑复杂一点的

话，我们可以使用带优化目标的聚类：比如K-Center-Greedy算法，其约束条件是在最大化多样性

的情况下，使指令数据集最小。

另外，如果我们已经有了一批已经去重的人工处理过的高质量数据，那么我们如何寻找与这批数据

不一

您可能关注的文档

文档评论（0）

189****7098 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大模型面试题-40-大模型（LLMs）训练集面.pdf