行业大模型训练数据技术文档清单、训练数据质量评价指标参考表.docxVIP

  • 0
  • 0
  • 约1.91千字
  • 约 2页
  • 2026-07-05 发布于河南
  • 举报

行业大模型训练数据技术文档清单、训练数据质量评价指标参考表.docx

(资料性)

行业大模型训练数据技术文档清单

行业大模型训练数据管理过程中宜形成并保存以下技术文档,各文档应包含的核心字段要求如下:

数据需求阶段

数据需求说明书(核心字段:需求目标、数据范围、数据规模、质量要求、行业领域、责任主体);

数据采集方案(核心字段:采集来源、采集方式、采集频率、质量标准、预算安排);

数据合规预审报告(核心字段:审查范围、审查依据、审查结论、风险提示)。

数据采集阶段:

数据采集日志(核心字段:采集时间、来源、数量、方式、采集人员);

数据来源合法性证明文件(核心字段:数据提供方、授权范围、有效期);

数据授权协议或许可文件(核心字段:授权方、被授权方、使用范围、期限、限制条件);

外部数据获取记录(核心字段:数据来源、获取时间、版本号、数据规模)。

数据处理阶段:

数据清洗规则与日志(核心字段:清洗规则、清洗参数、清洗前后数据量);

数据去重规则与日志(核心字段:去重方法、去重阈值、去重前后数据量);

数据格式规范化说明(核心字段:编码格式、字段定义、格式转换规则);

数据脱敏规则与日志(核心字段:脱敏方法、脱敏字段、脱敏效果验证结果);

数据增强方法与参数记录(核心字段:增强方法、增强参数、增强前后数据规模);

数据采样策略与结果记录(核心字段:采样方法、采样参数、采样前后分布对比)。

数据标注阶段:

标注规范文档(核心字段:标注目标、类别体系、标

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档