- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型(LLMs)训练集面
来自:AiGC面试宝典
2023年12月24日00:33
1.SFT(有监督微调)的数据集格式?
一问一答
2.RM(奖励模型)的数据格式?
一个问题+一条好回答样例+一条差回答样例
3.PPO(强化学习)的数据格式?
理论上来说,不需要新增数据。需要提供一些prompt,可以直接用sft阶段的问。另外,需要限制
模型不要偏离原模型太远(ptxloss),也可以直接用sft的数据。
4.找数据集哪里找?
推荐Alpaca-COT,数据集整理的非常全,眼花缭乱。
5.微调需要多少条数据?
取决于预训练数据和微调任务的数据分布是否一致,分布一致,100条就够,分布差异大就需要多
些数据,千条或者万条以上为佳。
自己的任务复杂或者下游任务行业比较冷门,如药品名称识别任务,则需要较多监督数据。还有微
调大模型时,一遍是记不住的。100条的微调数据,epochs=20才能稳定拟合任务要求。
6.有哪些大模型的训练集?
预训练数据集togethercomputer/RedPajama-Data-1T「红睡衣」开源计划总共包括三部分:
•高质量、大规模、高覆盖度的预训练数据集;
•在预训练数据集上训练出的基础模型;
•指令调优数据集和模型,比基本模型更安全、可靠。
预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可
以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。
完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB。
CoT微调数据集:Alpaca-CoT里面包括常用的alpaca,CoT等数据集,有中文的。
7.进行领域大模型预训练应用哪些数据集比较好?
通过分析发现现有的开源大模型进行预训练的过程中会加入数据、论文等数据。主要是因为这些数
据的数据质量较高,领域相关性比较强,知识覆盖率(密度)较大,可以让模型更适应考试。给我
们自己进行大模型预训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重
要的数据。
8.如何选取和构建大模型微调数据?
•动机:在微调大模型时,首先需要解决的问题是“选取和构建大模型微调数据”,那如何选择
呢?
•问题一:什么样的数据才是最优的大模型微调数据?
1.数据的多样性:
一般情况下我们数据的分布都是符合一个长尾分布的。主要的几个类别数据占据了90%的数据量,
剩下的90%的类别只有10%的数据量。
举个栗子:小红书上,query的意图识别里,美食,穿搭,旅游攻略类非常多,但是还有一些同学
去搜大模型微调的数据技巧。
如果说我们直接采样一批线上的图文文本,直接送给标注的话,会存在一个严重的问题:他们标注
的数据大部分都是攻略类,技术类比较少,标了3个月才攒了几千条大模型技术文本,但是攻略类
已经成几万了。
这样搞肯定是不行的,人力成本方面的消耗是在是太大了,并且模型因为数据平衡的问题也没有特
别好
1.数据的标注质量;
2.数据的不确定性;
•问题二:如何构建大模型微调数据?
3.方法一:“self-instruct”的框架,通过自我生成来提升指令跟随能力。文章的流程是从语言模型
中生成指令、输入和输出样本,然后在使用这些数据微调原始模型之前进行清洗。
4.方法二:“主动学习”
主动学习有两个基本原则,在监督训练的时候,注意主动发现数据的两个方面,一个是数据多样
性,另外一个是数据的不确定性。这样讲是比较抽象的概念,那我们在大模型实践中如何体现呢?
第一,数据的多样性。
多样性即为数据的去重,去重这件事的核心是相似度度量,现在的相似度度量方法大家用的比较多
的是基于对比学习构造的语义向量这套思路,当然简单的基于词袋或者tfidf的方案也是可以的。有
了核心的相似度度量方法后,我们可以使用简单的onepass聚类方法进行过滤,考虑复杂一点的
话,我们可以使用带优化目标的聚类:比如K-Center-Greedy算法,其约束条件是在最大化多样性
的情况下,使指令数据集最小。
另外,如果我们已经有了一批已经去重的人工处理过的高质量数据,那么我们如何寻找与这批数据
不一
您可能关注的文档
- 大模型面试题-5-transformers 操作篇.pdf
- 大模型面试题-4-Attention 升级面.pdf
- 大模型面试题-3-LLMs 激活函数篇.pdf
- 大模型面试题-2-Layer normalization 篇.pdf
- 大模型面试题-1-大模型(LLMs)基础面.pdf
- 大模型面试题-43-显存优化策略篇.pdf
- 大模型面试题-42-大模型(LLMs)显存问题面.pdf
- 大模型面试题-41-大模型(LLMs)LLM生成SFT数据方法面.pdf
- 大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf
- 大模型面试题-38-大模型(LLMs)强化学习—— PPO 面.pdf
- 大模型面试题-37-大模型(LLMs)强化学习——RLHF及其变种面.pdf
- 大模型面试题-36-大模型(LLMs)强化学习面.pdf
- 大模型面试题-35-大模型(LLMs)评测面.pdf
- 大模型面试题-34-基于lora的llama2二次预训练.pdf
- 大模型面试题-33-增量预训练(Pretrain)样本拼接篇.pdf
- 大模型面试题-32-大模型(LLMs)增量预训练篇.pdf
- 大模型面试题-31-大模型(LLMs)推理面.pdf
- 大模型面试题-30-如何使用 PEFT库 中 LoRA?.pdf
最近下载
- 辽2015T402 民用建筑空调与供暖冷热计量设计与安装.docx
- 《学校绿化养护服务方案》.doc
- 河北建筑国企招聘笔试题库.pdf VIP
- 副高卫生职称《放射医学》(题库)模拟试卷三.docx VIP
- 第四章原产地规则.ppt VIP
- 《海南全景解析》课件.ppt VIP
- 2016年张掖市中考化学试卷及答案.doc VIP
- AP微观经济学 2019年真题 附答案和评分标准 AP Microeconomics 2019 Real Exam with Answers and Scoring Guidelines.pdf VIP
- 外研版八年级上册英语单词表(附自测单).doc
- 入职通知书模板 .doc VIP
文档评论(0)