- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
电力系统的大语言模型微调数据准备规范
DataPreparationRequirementsandStandardsforLargeLanguage
ModelsinthePowerSystem
1范围
本文件适用于电力系统的大语言模型的数据准备,包括数据的采集、清理、标注、注释
和整理等所有环节。此标准的目的在于规范在大语言模型训练中的数据处理过程,以保证数
据的可用性、一致性和可追溯性。本文件规定了人工智能大语言模型在电力系统中的微调数
据准备规范,本文件共分为数据准备要求、数据准备规范、数据准备流程等。
本文件适用于各单位使用大语言模型技术解决相关业务需求,适用于电力系统人工智能
大语言模型的应用开发等业务场景,帮助业务人员以及开发人员完成模型训练、模型微调等
相关工作。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.28-2001信息技术词汇第28部分:人工智能基本概念与专家系统
GB/T41867-2022信息技术人工智能术语
3术语和定义
下列术语和定义仅适用于本文件。
3.1人工智能ArtificialIntelligence
人工智能是一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推
理和学习)相关的各种功能的模型和系统。
3.2大语言模型LargeLanguageModel
大语言模型也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。在大
规模文本语料上训练、包含百亿级别(或更多)参数的语言模型。
3.3指令微调InstructionTuning
指令微调是指可以帮助大语言模型实现人类语言指令遵循的能力,在零样本设置中泛化
到未见任务上的学习方法。
3.4数据准备DataPreparation
指的是将原始数据进行清洗、转换、标记和结构化以适用于大语言模型的过程。
3.5数据源DataSources
数据源指的是用于训练和应用大语言模型的原始数据,包括但不限于文本、图像、报告
和传感器数据。
1
3.6数据预处理DataPreprocessing
数据预处理指的是在得到原始数据之后对数据进行预处理,包括数据清洗、去重、去噪
以及数据标准化等步骤。
4缩略语
下列缩略语适用于本文件。
Json:JS对象简谱(JavaScriptObjectNotation)
BOM:字节顺序标记(ByteOrderMark)
5总则
本文件规定了人工智能大语言模型在电力系统中的微调数据准备规范,本文件共分为数
据准备要求、数据准备规范、数据处理流程等。其中数据准备主要用于规范电力系统的大模
型在微调训练中的数据收集、数据格式以及数据隐私与安全等,数据准备规范主要用于规范
电力系统大模型微调训练中的数据预处理、数据转换、数据标签与注释、数据及划分、数据
格式化、数据集质量评估、数据增强以及数据更新与维护等,数据处理流程主要用于规范数
据预处理的一般步骤和中文数据预处理的步骤等。具体内容组织框架见图1:
图1组织框架
2
6数据准备规范
6.1数据收集
本文件主要从数据来源、数据多样性与数据质量三个方面对数据收集过程进行相关的规
范性要求,确保大语言模型微调技术应用过程中训练数据符合要求。
(1)数据来源
电力系统的数据要求是通过传感器、智能设备、视频监控设备、音频通信设备、移动终
端等进行数据采集,收集海量结构化、半结构化、非结构化的业务数据集合。在电力系统中,
大语言模型的微调与训练所使用的数据应来自可靠和权威的电力系统数据源,包括电力公司、
政府部门和独立研究机构等。
(2)数据多样性
在大语言模型训练过程中所使用的数据要求应涵盖电力系统各个方面,包括发电、输电、
配电、设备状态、市场数据和电力负荷等,需要根据具体的业务场景及需求,保证数据的多
样性和丰富性。
文档评论(0)