- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
?
?
数据溯源模型与DC元数据的映射研究
?
?
TP391
DOI:10.3772/j.issn.1673-2286.2016.3.002
在大数据背景下,数据成为重要的资产。人们希望能够像实物资产一样,在数据使用过程中,一旦出现质量问题,可以根据溯源信息,找到数据产生和生产环节中可能出现问题的地方,提高数据生产和使用的效率和效益。因此,“数据溯源”的概念应运而生。“数据溯源”也叫数据起源、数据族系,是对数据的追本溯源,不仅强调数据溯源追踪技术,实现对历史数据的重现,更强调从原始数据到数据产品衍生的过程。PROV作为2013年W3C出的数据溯源标准,提供以数据溯源模型(PROV-DM)文档为核心的12个系列文档(包括4个推荐标准),实现对数据的溯源及规范化表达。其实现原理是通过捕捉溯源所需的相关数据,利用数据溯源模型(PROV-DM)和数据溯源本体(PROV-O)分别进行组织及表达。数字图书馆中包含大量的数据资源,是科研工作者在创新活动中要使用的不可或缺的资源。数字图书馆引入数据溯源标准,进一步加强对数字资源的管理,将更有利于数据资源的开发和利用。元数据对数字资源进行描述、组织、管理,在数字图书馆建设和管理中起重要作用。DC元数据因其在数字资源描述上的简易性、通用性、可扩展性等特点而被大部分数字图书馆采用。但现有的DC元数据是否满足数据溯源的要求,亟须研究和确认。本文将数据溯源标准PROV与DC元数据标准进行比较,考察两者的联系和区别,为数据溯源标准在数字图书馆的应用提供支撑。
1 相关研究述评
数据溯源是一个新兴的研究领域,国外针对数据溯源的研究主要集中在方法、模型以及应用三个方面。方法研究上,提出的常用方法有注释法[1]、反向查询法[2]。模型研究上,提出的通用模型包括OPM模型[3]、Provenir模型[4]以及最新的PROV-DM模型[5]等,此外国内学者在各类模型基础上提出一些改进,如OPM安全扩展模型[6]、DNA双螺旋模型[7]。应用上,早期主要集中在生物、天文、地球科学、地理信息系统等专业领域,后来逐渐扩展到计算机等通用技术领域。目前,部分学者研究和应用W3C发布的PROV系列文档,致力于补充或完善该文档定义的PROV-DM模型使其面向特定领域使用,或将该文档描述的数据溯源词汇与相关领域词汇进行映射,其中包括PROV与音乐本体间的映射[8]。
国内对于数据溯源的研究主要集中在计算机和国防领域,图情领域也有相关研究。图情领域针对数据溯源展开的研究有邓仲华等对面向数据发布的科学工作流数据溯源方法进行研究[9];李文燕等分析比较了常用的溯源模型OPM、Provenir和CRMdig,对溯源标准PROV进行研究和分析[10];倪静等则详细分析了PROV标准中的PROV数据溯源模型及其Web应用,并对Web应用中溯源信息定位和查询机制进行相关研究[11-12];吴振新等通过分析长期保存领域相关标准中对溯源的要求和描述来研究溯源技术在长期保存中的应用,提出长期保存溯源管理框架[13]。
综上所述,数据溯源已经成为国内外研究者关注的一个领域。利用数据溯源思想和模型对数字图书馆中的数字对象进行进一步管理也成为数字图书馆的研究热点。研究数据溯源PROV与DC间的映射关系,有助于开发人员从大量DC数据中提取PROV数据,使DC术语中包含的溯源信息更加明确,提高DC和PROV的互操作性,也有助于数字图书馆资源更加适应大数据的应用环境。
2 DC和PROV的基本概念
数字图书馆中常用的DC元数据标准包含15个核心元素和限定词。PROV从数据溯源的需求出发,提出数据溯源的概念模型和使用规范,其具体使用时必然要与DC元数据建立映射,并补充已有元数据项的缺失,而后才能建立起数字图书馆数据溯源的技术体系。
2.1 DC(都柏林核心元数据)
DC是Dublin Core的简称,是1995年3月由OCLC和NCSA在美国俄亥俄州都柏林召开的第一次元数据研讨会上提出的概念,用以描述资源对象。DC是在网络资源迅速增长下出现的一种描述性元数据,包括15个核心元素,较全面地涵盖了数字资源的主要特征,能够很好地描述和揭示数字资源。利用DC元数据能对信息资源进行描述、定位、评估、选择,是描述、管理和检索数字资源的有效组织方式[14]。在应用上,已经从单纯的数字资源描述,扩展到数据资源的管理活动描述、技术管理描述等多个方面。经过20年的发展,DC元数据已成为数字图书馆中信息资源组织和管理的重要工具。
2.2 PROV
PROV是2013年W3C面向用户、开发人员和高级开发人员发布的关于溯源的标准[15]。目前,W3C PROV工作小组共发布12个文档,其中有4个作为推荐
您可能关注的文档
最近下载
- 劳动教育自制贺卡.pptx
- ENTERFACE2010ProjectProposal.doc VIP
- 居家养老服务承诺书-居家承诺书.docx VIP
- DB3205_T1078-2023_人才公寓运营管理与服务规范_苏州市 .docx VIP
- ProjectProposal项目建议书英文模板.docx VIP
- 新媒体写作与运营PPT完整全套教学课件.pptx VIP
- ProjectProposal项目建议书英文模板.pdf VIP
- 城镇燃气工程分部、分项工程划分[1].docx VIP
- 网络教学效果调查与数据分析.docx VIP
- 工程量清单及招标控制价编制服务采购服务质量承诺及保障措施.docx VIP
原创力文档


文档评论(0)