- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
科技资源关联及聚合:原则与方法
1范围
本文件确立了基于元数据进行科技资源关联及聚合的总体框架和原则,描述了科技资源元数据预处
理方法、科技资源关联的流程和方法,以及在关联基础之上建立科技资源聚合的方法。
本文件适用于对科技资源的组织管理,以及对科技资源在显性和隐性层面的关联聚合。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T7408—2005数据元和交换格式信息交换日期和时间表示法
GB/T30523—2014科技平台资源核心元数据
3术语和定义
GB/T31075-2014界定的以及下列术语和定义适用于本文件。
3.1
科技资源STresource
用于科技活动的人力、物力、财力以及信息等要素的总称。
[GB/T31075-2014,定义2.2.1]
3.2元数据metadata
关于数据的数据。
[GB/T19710-2005,定义4.5]
3.3
元数据元素metadataelement
元数据的基本单元。
[GB/T32846—2016,定义3.3]
3.4
标识型元数据identifiermetadata
标识型元数据是用于标识数据对象并对其进行唯一标识的元数据,它通常包括科技资源的名称、DOI、
OCRID等信息。
3.5
科技资源关联STresourceassociation
基于科技资源之间相同的元数据元素,在两项科技资源之间建立关联关系。两项科技资源可以是相
同类型,也可以是不同类型。
1
4总体框架
4.1概述
基于不同科技资源共有的元数据元素,发现科技资源之间存在的显性关联以及隐性关联,进而将相
似的或相近的科技资源聚合在一起。基于元数据的科技资源关联聚合总体框架见图1。
图1基于元数据关联聚合科技资源总体框架
4.2显性关联
显性关联是基于科技资源的元数据建立关联,包括元数据元素关联、元数据映射关联、元数据内容
关联以及上下位关联。科技资源显性关联的关联度为0或1。
4.3隐性关联
科技资源间不能建立显性关联时才能建立隐性关联,通过向量化和相似度计算实现隐性关联,包括
语义关联、上下位关联、主题关联。科技资源隐性关联的关联度在区间[0,1]内。
5科技资源关联聚合的原则
5.1完整性原则
元数据的完整性是进行科技资源关联聚合的核心。无论在哪个阶段,从数据收集到数据的存储和使
用,均应确保必要字段无空值或缺失数据,以保证科技资源的有效性和实用性。
5.2可靠性原则
用于科技资源关联聚合的元数据不仅应准确,来源也应是可靠的。可靠性用以确保元数据的真实和
准确性,对可靠的科技资源进行关联聚合才是有意义的。
2
5.3适应性原则
选择关联和聚合策略时,应根据元数据的特性和使用场景来选择最合适的方法。元数据可分为不同
的类别,并且可以根据其重要性和使用频率进行区分,使关联聚合能够适应不同类型的科技资源,并且
能够灵活处理、分类和整合各种类型和来源的科技资源。
5.4统一性原则
所有相似或类似的元数据应遵循统一的处理和表示原则。即确保所有相似的元数据都采用统一的表
示格式以及度量。
5.5归一化原则
为确保关联度的计算结果是可比较的,无论使用何种计算方法,都应将结果转化到0到1之间。
6科技资源元数据预处理方法
6.1元数据元素映射
科技资源同一元数据元素在不同的数据源中存在不同的表达形式,将不同的表达形式通过映射表转
换为统一的名称,映射按照GB/T30523-2023中5.2的要求。
示例:科技论文的“论文标题”、专利的“专利标题”、科技人才的“姓名”、标准的“标准名称”以及科研仪器
的“仪器名称”统一映射到“资源名称”。
6.2规范实体名称
科技资
文档评论(0)