科学数据共享通用标准培训系列教材
《数据元标准化的基本原则与方法》
标准培训教材
科学数据共享工程办公室
2006 年2 月
1 目的意义
简单地讲,该标准要解决一些几个方面的主要问题:什么是数据元,干什么
用;它的基本属性是什么,如何规范地写出这些属性;产生了大量的数据元后如
何管理。
数据元标准化的目的,概括地讲,就是要通过元数据的所有元素以及具体数
据的数据单元 (数据元)的标准化,使得数据的拥有者和使用者,对数据有着共
同、一致和无歧义地理解。那么,如何实现这一点呢,就必须首先规定数据元标
准化的原则和一些基本的方法。
本标准的目的就在于给出科学数据共享工程、各领域、主体数据库三个层面
的数据以及关联数据,在其特定的语境中数据单元进行标准化的原则、方法以及
管理的机制和模式。它不仅是科学数据共享三个层面各自内部数据规范的原则与
方法,同时也是元数据元素和元数据内容规范的原则与方法。它不仅是科学数据
大平台建设中数据规范、公共数据元目录编写必须遵循的原则与方法,更是各试
点单位相关库结构设计和数据字典编写的依据和基础。
对内,可以作为科学数据采集、加工、处理环节工作人员的操作 “手册”
或工作“指南”,使其有标准可依,在分析业务流程和所关心对象、其特性和可
能表示的前提下,提取所需的数据元和属性,按照本标准规定的原则和方法,对
其进行标识、命名、定义等,同时提交 册。
对外,可以使有关方,根据本标准以及由此产生的数据元目录、字典,对科
学数据的进行相应汇交、分发、服务和应用。
上述这些活动都必然建立在数据使用者和数据拥有者对相关数据的涵义、表
示及标识有着相同而无歧义的理解基础上。
最后,本标准是科学数据共享工程、各个领域以及主题数据库设计和建设工
程中数据 (元)目录、数据 (元)字典以及更高、更理想应用层次的数据元 册
系统的顶层、基础方法性标准。一般与目录、字典或 册系统的应用说明书等一
起提供给用户。
2 标准内容
首先,本标准文本中的范围已经基本给出了标准的主要内容:
1 本标准围绕各种类型的科学数据库建设和整合以及科学数据交换、共享、
服务和应用对数据元标准化的需要,规定了数据元的提取、命名、标识、描述、
分类、值域范围确立的基本原则与方法,数据元目录的格式规范,以及整个科学
数据共享工程中数据元的维护与管理层次与机制。
2 本标准适用于科学数据共享工程各建设单位研究和制定通用和专用的数
据元目录 (又称数据元字典)标准。
其次,本标准围绕各种类型的科学数据库建设和整合以及科学数据交换、共
享、服务和应用对数据元标准化的需要, 从业务实现的功能模块的角度来看,
重点要解决科学数据共享过程中的:
数据元如何提取
数据元如何命名和标识
数据元如何描述与表示
数据元的分类
数据元的值域
数据元目录的编写格式
从逻辑思维、便 阅读、理解的角度,标准文本包含以下几个板块:
什么是数据元;数据元的基本属性有哪些;如何提取数据元及其属性;数据
元的分类法;数据元的标识和命名原则与方法;数据定义编写的原则与方法;数
据元的值域及表达模式;数据元目录的编写格式;以及如何进行数据元的管理与
维护。
3 标准应用
3.1 据元和 据元属性的提取
对 以现有数据库为主的领域中科学数据共享来说,数据元和属性提取的方
法上宜采用 “自下而上”的方法为主。工作流程可能有两种方式和途径。
一是直接由各个主体数据库,依据本标准规定的原则和方法,对自身的数据
库等相关数据资源的数据在分析、梳理基础上,归纳整理出各自数据库数据元;
根据数据元的应用实际和数据库的具体要求,阐明并写出相关数据元在采集、存
储和交换过程中各个属性以及属性的约束要求;描述和定义各个属性所需要的属
性描述符及其约束要求;根据给定的命名、定义、标识规则和表示规范,形 各
自数据库的数据 (元)字典;根据领域和工程的需要,提交领域、共享工程层面
的数据元。
二是各个领域先依据本标准制定各领域的具体数据元标准化的原则和方法
标准和数据元目录标准规定,供相关领域和其所属的主题数据库建设和设计参
考、使用,并形 领域的数据元目录以及各个
原创力文档

文档评论(0)