电力系统的大语言模型微调数据准备规范(-2024 征求意见稿).docxVIP

电力系统的大语言模型微调数据准备规范(-2024 征求意见稿).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

10

CES

CESXXX

T/CESXXX-

T/CESXXX-X

团 体 标 准

T/CESXXX-XXXX

电力系统的大语言模型微调数据准备规范

DataPreparationRequirementsandStandardsforLargeLanguage

ModelsinthePowerSystembile

ModelsinthePowerSystem

bileterminalintelligentinteractivemulti-rounddialogueprocessspecification

(征求意见稿)

XXXX-XX-XX发布 XXXX-XX-XX实施

中国电工技术学会发布

T/CESXXX

T/CESXXX-XXXX

目 次

前 言 22

范围 1

规范性引用文件 1

术语和定义 1

缩略语 2

总则 2

数据准备规范 3

数据收集 3

数据格式 3

数据预处理 4

数据转换 4

数据标签与注释 4

数据集划分 4

数据格式化 5

数据集质量评估 5

数据增强 5

数据更新与维护 5

数据隐私和安全 5

大语言模型微调数据准备流程规范 6

前 言

本文件按照GB/T1.1—2009《标准化工作导则第1部分标准的结构与编写》给出的规则起草。本文件由中国电工技术学会提出。

本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。

本文件起草单位:国网信息通信产业集团有限公司、国家电网有限公司大数据中心、中国电力科学研究院有限公司、国网智能电网研究院有限公司、北京国网信通埃森哲信息技术有限公司、四川中电启明星信息技术有限公司、国网福建省电力有限公司

本文件主要起草人:李强、赵峰、赵永生、邱镇、陈振宇、李博、刘识、李炳森、黄晓光、秦余、王晓东、张琳瑜、张国梁、刘园园、崔迎宝、王兴涛、卢大玮、吴迪、赵如意、宋卫平、杨帆、高攀、王红蕾、董梅、李欢欢、徐小云、叶林峰、赵林林、王誉博、李扬笛、杨彦、林晨翔

本文件为首次发布。

T/CESXXX

T/CESXXX-XXXX

1范围

本文件适用于电力系统的大语言模型的数据准备,包括数据的采集、清理、标注、注释和整理等所有环节。此标准的目的在于规范在大语言模型训练中的数据处理过程,以保证数据的可用性、一致性和可追溯性。本文件规定了人工智能大语言模型在电力系统中的微调数据准备规范,本文件共分为数据准备要求、数据准备规范、数据准备流程等。

本文件适用于各单位使用大语言模型技术解决相关业务需求,适用于电力系统人工智能大语言模型的应用开发等业务场景,帮助业务人员以及开发人员完成模型训练、模型微调等相关工作。

规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T5271.28-2001 信息技术词汇第28部分:人工智能基本概念与专家系统

GB/T41867-2022信息技术人工智能术语

术语和定义

下列术语和定义仅适用于本文件。

人工智能ArtificialIntelligence

人工智能是一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统。

大语言模型LargeLanguageModel

大语言模型也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型。

指令微调InstructionTuning

指令微调是指可以帮助大语言模型实现人类语言指令遵循的能力,在零样本设置中泛化到未见任务上的学习方法。

数据准备DataPreparation

指的是将原始数据进行清洗、转换、标记和结构化以适用于大语言模型的过程。

数据源DataSources

数据源指的是用于训练和应用大语言模型的原始数据,包括但不限于文本、图像、报告和传感器数据。

1

数据预处理DataPreprocessing

数据预处理指的是在得到原始数据之后对数据进行预处理,包括数据清洗、去重、去噪以及数据标准化等步骤。

缩略语

下列缩略语适用于本文件。

Json:JS对象简谱(JavaScriptObjectNotation)

BOM:字节顺序标记(ByteOrderMark)

总则

本文件规定了人工智能大语言模型在电力系统中的微调数据准备规范,本文件共分为数据准备要求、数据准备规范、数据处理流程等。其中数据准备主要用于规范电力系统的大模型在微调训练中的数据收集、数据格式以及数据隐私与安全等,数据准备规范主要用于

您可能关注的文档

文档评论(0)

TDCQ123456 + 关注
实名认证
文档贡献者

本人大学毕业。

1亿VIP精品文档

相关文档