- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
T/CESXXX—XXXX
电力人工智能样本存储技术要求
1范围
本文件规定了电力行业人工智能样本包含图像、文本、音频电力样本处理技术中样本存储技术总
体架构、基本要求和各项技术指标。
本文件适用于电力行业人工智能平台样本存储的建设、管理和使用。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T41867-2022信息技术人工智能术语
GB/T25000.51-2017软件工程软件产品质量要求和评价体系(SQuaRE)质量测量框架
Q/GDW12118—2021人工智能平台架构及技术要求
T/CES129-2022电力人工智能平台样本规范
3术语和定义
下列术语和定义适用于本文件。
3.1
样本存储系统Samplestoragesystem
指实现样本存储技术的软硬件系统,包括样本数据库、样本文件系统、样本元数据管理系统等。
3.2
样本存储效率Samplestorageefficiency
指样本存储系统在存储和访问样本数据时所消耗的时间、空间和资源的指标。
3.3
样本数据Sampledata
其具备的特征能够反映总体数据情况的一部分个体数据
3.4
文件格式fileformat
存储介质对存储信息制定的编码方式,用于识别内部储存的资料。
4符号、代号和缩略语
下列符号、代号和缩略语适用于本文件。
4.1符号
无
4.2代号
无
4.3缩略语
JPEG:联合图像专家组(JointPhotographicExpertsGroup)
PNG:便携式网络图型(PortableNetworkGraphics)
5电力人工智能样本存储总体架构
3
T/CESXXX—XXXX
电力人工智能样本存储技术总体架构包括:
a)样本数据,指用于电力人工智能训练和应用的原始数据,包括结构化数据和非结构化数据。非结
构化数据可以分为文本类、音频类和图像类三种类型,每种类型都有自己的格式和规范。样本数据需要
被存储在一个高性能、高可靠、高可用的样本文件系统中,以便于快速地读取和处理。
b)样本元数据,指对样本数据的描述性信息,包括但不限于编号、类型、来源、标签、质量、时
间、位置等内容。每个样本数据都应该有一个唯一的编号,用于标识和关联。样本元数据需要被存储在
一个高效、安全、灵活的样本数据库中,以便于进行增删改查等操作。
c)样本元数据管理系统,指用于实现样本数据库和样本文件系统之间的关联和协同的系统,主要有
三个功能:通过样本编号建立一一对应的关系,通过样本元数据进行检索和定位,通过样本元数据进行
同步和更新。这个系统需要保证数据的一致性、完整性和可用性。
图1电力人工智能样本存储技术总体架构图
6样本存储技术基本要求
6.1样本数据格式
样本数据应采用统一的文件格式进行存储,以便于后续的处理和分析。原则上同批次样本文件
中,单个文件最大不得超过该批次样本文件平均大小的200%,最小不得小于平均大小的50%。各类
型样本数据具体格式如下:
a)文本类样本数据应采用TXT、JSON、XML、CSV等常见的文本文件格式进行存储,每个文件应包
含一段或多段文本。
b)音频类样本数据应采用WAV、MP3、WMA、WAV、APE、FLAC、OGG、AAC等常见的音频文件格式进
行存储,每个文件应包含一段或多段音频。
c)图像类样本数据应采用JPEG、PNG、BMP、SVG、WEBP、EPS等常见的图像文件格式进行存储,
每个文件应包含一个图像。
d)视频类样本数据应采用MP4、M4V、WEBM、MOV、AVI、DIV等常见的视频文件格式进行存储,每
文档评论(0)