- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
元数据在专家信息库数据集成建设中的应用
赵淑玉1虞路清2黎建辉2
(1中科院人事教育局,北京100864
2中科院计算机网络信息中心,北京100080)
摘要本文介绍了元数据在专家信息库建设过程中的具体应用及其实施方案,结
合课题,讨论了数据集成与数据库管理的需求情况,对数据库的应用软件开发提出
了新的方向。
关键词元数据数据库数据清洗数据集成
元数据的发展与应用
元数据的出现对数字资源的组织、整理与检索带来新的方式。“元数据的概念早于网络
特有的分布式、变动性与多元性,元数据再度引起更广泛的关注,现在的元数据重点则在识
选择(selection),帮助用户决定是否取用该信息资源。
元数据的价值与重要性,是在日渐丰富的应用类型和Ⅱ发展过程中逐渐显露的。现在,
很多国内外的大型工程项目与国际组织发展应用了各类元数据标准。元数据的发现和利用,
最先是发生在关系数据库领域。当时,元数据被看成是对数据库中的各种结构要素的描述与
定义的数据。即元数据只对有限的对象作描述,如数据库、表、列、列属性(类型、格式、
约束等)以及主键/外部键关联等的描述。当应用环境变得越来越复杂,特别是异构性与分布
性越来越成为应用环境最普遍的需求时,元数据的技术内涵获得了新的更丰富的补充。如在
后台数据的抽取与转换作业过程中,需要元数据:
1.确定数据源的位置及数据源的属性
2..确定从源数据到目标数据的对应规则
3.确定相关的业务逻辑
4.在数据实际加载前的其他必要的准备工作,等等
在元数据中不仅有应用系统所依赖的数据模型的描述,而且还有逻辑模型与物理数据库
进行关联的描述。因此,一个好的元数据管理工具,可以发现应用系统的修改会影响到数据
模型的哪些要素。一个精心设计和实施的元数据标准规范与管理策略,通过支持在元数据一
级的数据语义互操作性,以进一步实现支持OLTP与决策支持共存的复杂应用系统,也才能
保证所有基于元数据的应用系统具备有效数据交换的能力【l一】。
2.专家信息库的发展与现状
中国科学院拥有1万6千多位高级专业技术人员,其中研究员、教授及具有其他相当职
370
务的近5千人,他们为我国科学技术事业的发展做出了突出贡献。当前,我国人才的竞争已
经走向国际化,我院正在实施引进人才计划,“百人计划”、“引进国外杰出人才”、“西部之光”
都是吸引、培养领衔式将帅人才的具体措施,目的是尽快完善充实我院的科技队伍。建立专
家信息系统,可以为院局领导制订各项人才政策提供决策依据,同时展示我院优秀人才的整
体状况,具有重大的实际意义。
从1989年开始,经过长时问的数据积累,在科学院系统内建立超‘高级专家信息数据库”,
并于1999年在科学数据库网上正式发布。随着对专家信息库的管理需求和应用服务的增加,
日益老化的数据结构与功能已不能满足应用的要求。主要问题在于,数据库表的信息项很单
薄,只有简单的专家基本信息,满足不了人们的信息需求;随着对专家数据的管理力度加强,
不断采集各个研究机构专家的动态信息,现有库表结构及其功能难以胜任异构数据的处理与
集成需求等Ⅲ。
因此,在原有数据库的信息基础上,专家信息库需要进一步充实专家在科研项目、论文、
专利、成果、奖励等方面的内容。在应用开发方面需要开发如基于关键词和数据字段进行综
合查询,按专家、学科、机构等进行分类、导航和检索,将异构性质的数据源利用元数据规
范方案进行整合(图1),开发智能化的分析工具,并在专家与专家,专家与企业,专家与公
众之问建立虚拟的交流平台。
图l专家信息库的数据集成需求
3.基于元数据的专家信息库建设方案
通过对专家信息库的进一步发展的需求分析可以看出,专家信息一方面要面向全部用户
提供信息查询服务,一方面要向分布式的各地研究院所提供信息采集录入的数据管理服务,
还要对来自院内各种专家数据资源进行有效的集成和同步更新。因此,基于全面的专家信息
分析,+重构专家信息的元数据规范模型是必须和首要的任务。
分布式数据处理通常采取两种数据表现形式,即使用星型模式的关系数据库或多维立方
体。无论采用什么样的表现形式,所有数据库都必须具有统一的维结构,即具有公共的键和
公共的属性。其中共享的元数据可以用来捕获和定义维结构中的键【4】。
文档评论(0)