- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第
第PAGE1页共NUMPAGES5页
2025版科技资源共享科技资源信息集成规范
1范围
本文件规定了科技资源信息集成的总体要求、架构以及分层功能的具体要求与流程。
本文件适用于科技资源共享和服务活动中的数据信息集成。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T20533
GB/T30523
GB/T42813
生态科学数据元数据科技资源核心元数据
数据论文出版元数据
3术语和定义
下列术语和定义适用于本文件。
3.1
科技资源scienceandtechnologyresource
科技活动中的物质和信息要素的总称。
注:科技资源包括科技创新所需的工具、条件和对象,如科研仪器设施、科学数据、生物种质与实验材料等。
[来源:GB/T30523—2023.,3.1]3.2
科技资源元数据metadata
在科技资源管理与共享活动中,用于规范化描述科技资源特征、属性及关联关系的结构化数据。3.3
科技资源信息scienceandtechnologyresourceinformation
用于描述科技资源内容、特征和属性的结构化数据。
3.4
科技资源信息集成scienceandtechnologyresourceinformationintegration
通过规范化技术流程对多源异构的科技资源元数据进行采集、清洗、映射与融合,构建统一语义结构的科技资源元数据集合。
3.5
数据模式dataschema
对科技资源数据集中数据组织、结构和约束条件的定义和描述。
第
第PAGE2页共NUMPAGES5页
3.6
多源异构数据multi-sourceheterogeneousdata
来自不同数据源且在数据模式、存储格式或访问方式等维度存在显著差异的数据集合。
4科技资源信息集成要求
科技资源信息集成的对象是多源异构的结构化科技资源数据,科技资源信息集成要求如下:
a)应能处理数据的语法异构问题,包括数据组织方式、存储格式、编码方式等方面的差异;
b)应能处理数据的语义异构问题,包括不同数据源中相同或相关数据项在含义、解释或上下文方面存在的差异;
c)应能适应科技资源多领域、跨部门、跨地域的应用需求;
d)应具有前瞻性,能动态适应科技发展及数据标准变化;
e)数据格式应按照GB/T30523、GB/T20533和GB/T42813及其他行业相关标准等。
5科技资源信息集成架构
科技资源信息集成架构应包括3个层面及相应的功能:采集层、处理层、呈现层。如图1所示,信息集成的流程及功能从低到高依次由采集层、处理层和呈现层负责执行。各层具体职责如下:
a)采集层包括数据采集和数据清洗,负责采集多源异构的科技资源数据,并对数据进行清洗,最终存储为统一的数据格式(如JSON格式、XML格式),便于进一步处理和分析;
b)处理层包括中间模式、属性匹配、模式映射以及数据融合4个模块,负责将统一数据格式的科技资源元数据映射到预定义的数据模式中;
c)呈现层包括数据查询引擎和个性化输出模块,负责将科技资源元数据输出为用户所需的形式。
图1科技资源信息集成架构图
第
第PAGE3页共NUMPAGES5页
6科技资源信息集成分层功能要求及流程
6.1采集层
6.1.1采集层要求
采集层应包括数据采集模块和数据清洗模块,具体要求如下。
a)数据采集模块应具有动态采集和静态采集两种方式。其中,动态采集方式应根据科技资源数据来源机构提供的数据接口动态获取数据信息。静态采集方式应从已汇交的数据文件中获取数据信息。
b)数据清洗模块应具备对科技资源数据缺失值、无效值以及冗余值的处理能力。对于缺失值,视情况保持空缺或进行填补。对于无效值,采用数据类型检查、范围验证和格式验证等方法来识别和排除。对于冗余值,通过重复值检测、唯一性约束和数据规范化等手段来判定和处理。
6.1.2采集层工作流程
首先将多源异构的科技资源数据作为采集层的输入,经数据采集模块处理后得到各自对应的、统一数据格式
原创力文档


文档评论(0)