- 2
- 0
- 约4.47千字
- 约 7页
- 2026-06-16 发布于广东
- 举报
AI前沿技术:大模型微调数据集构建规范
1范围与术语定义
1.1适用范围
本规范面向千亿/百亿级通用大模型、垂直领域行业大模型,覆盖有监督指令微调(SFT)、思维链微调(CoT)、偏好对齐微调(DPO/RM)、多轮对话微调、领域知识微调五大主流微调范式,规定数据集需求规划、数据源采集、样本构造、预处理、格式标准化、质量质检、版本管控、合规治理、归档运维全流程强制规范与推荐准则;适配通用政务、金融、医疗、工业、法律、客服六大高频垂直场景,兼容开源基座模型、企业私有化基座模型微调工程落地,对标T/ISC0076—2025、信通院AI数据集质量ADAQ评估体系国内行业标准。
本规范不适用于大模型预训练原始语料数据集、多模态原生图像/音频数据集,可作为企业AI研发团队、数据标注机构、算法工程团队数据集建设统一执行标准。
1.2核心术语定义
微调数据集:针对特定任务、领域、输出风格、价值对齐目标,人工构造或机器合成、标注优化的小体量高质量配对样本集合,区别于预训练海量无标注语料,具备指令-输出、上下文-应答、偏好正负样本绑定特征。
SFT单轮样本:指令+补充输入+标准输出三元结构化微调基础样本,为工业落地主流样本格式。
CoT思维链样本:嵌入分步推理逻辑、中间推导过程的推理类微调样本,适配数学、法律、工程研判逻辑任务。
DPO偏好样本:同一指令对应优质正向输出、劣质负向输出成对样本
您可能关注的文档
- AI跨行业应用讨论:制造业与服务业AI互通应用.docx
- AI跨行业应用讨论:全域AI应用风险与防控.docx
- AI跨行业应用讨论:电商AI技术向实体业态延伸.docx
- AI跨行业应用讨论:出海业务AI全球化适配方案.docx
- AI跨行业应用讨论:公共安防AI技术全域部署.docx
- AI跨行业应用讨论:健康管理AI系统全民生场景应用.docx
- AI跨行业应用讨论:轻量化AI应用跨界推广策略.docx
- AI跨行业应用讨论:行业AI知识共享平台建设.docx
- AI跨行业应用讨论:心理咨询AI工具跨场景运用.docx
- AI跨行业应用讨论:文旅行业AI体验跨界融合.docx
- GB/T 6609.24-2026氧化铝化学分析方法和物理性能测定方法 第24部分:安息角及流动角的测定.pdf
- 中国国家标准 GB/T 6609.24-2026氧化铝化学分析方法和物理性能测定方法 第24部分:安息角及流动角的测定.pdf
- GB/T 6609.5-2026氧化铝化学分析方法和物理性能测定方法 第5部分:氧化钠、氧化钾含量的测定.pdf
- 中国国家标准 GB/T 6609.5-2026氧化铝化学分析方法和物理性能测定方法 第5部分:氧化钠、氧化钾含量的测定.pdf
- 《GB/T 6609.5-2026氧化铝化学分析方法和物理性能测定方法 第5部分:氧化钠、氧化钾含量的测定》.pdf
- GB/T 30104.221-2026数字可寻址照明接口 第221部分:控制装置的特殊要求 需求响应(设备类型20).pdf
- 《GB/T 30104.221-2026数字可寻址照明接口 第221部分:控制装置的特殊要求 需求响应(设备类型20)》.pdf
- 中国国家标准 GB/T 30104.221-2026数字可寻址照明接口 第221部分:控制装置的特殊要求 需求响应(设备类型20).pdf
- 《GB/T 47678.4-2026城市运行管理服务平台 第4部分:地理编码》.pdf
- GB/T 47678.4-2026城市运行管理服务平台 第4部分:地理编码.pdf
原创力文档

文档评论(0)