网站大量收购独家精品文档,联系QQ:2885784924

基于Hadoop系统数字档案资源集成平台构建及实现.docVIP

基于Hadoop系统数字档案资源集成平台构建及实现.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop系统数字档案资源集成平台构建及实现

基于Hadoop系统数字档案资源集成平台构建及实现   摘要:本文针对现有资源平台的不足,结合信息技术的最新发展,引入分布式技术,设计了基于Hadoop系统的数字档案资源整合集成平台模式,并对该模式进行研究。   关键词:集成平台服务模式分布式技术   目前,国家正在大力推进档案资源网络化,要求充分利用已有的信息传输网络,实现资源共享。[1]传统的数据管理方式易导致信息分散保存、重复保存、收集困难、检索困难、移交困难和协作脱节等问题,不利于档案资源多领域的共享与利用,在这种情况下,亟需改变落后的数据管理方式,提升效率,实现数据的现代化管理。   一、我国数字档案资源整合集成模式的现状   所谓数字档案资源指的是国家数字信息资源的核心资源,包括电子档案、传统载体档案数字化副本、元数据、系统数据以及其他需要长期保存的数字信息等,其具有凭证、记忆、身份认同、社区能力构建等多元价值属性。通过对海量数字档案数据的收集、分析、处理和利用,能够更好地应对社会的发展。既有的档案数字资源如果能够通过某一平台得到整合与集中,那么数字档案资源利用将得到极大的发挥,档案服务民生的作用也将得到进一步体现。可以说,对数字档案资源整合集成模式的研究,就是提升档案资源服务能力的有效手段。   目前,我国有多种数字档案资源整合集成模式。例如,基于档案网站的数字档案资源整合模式、电子政务环境下的档案资源整合与共享模式。此外,还有交互式数字档案服务模式[1]和云计算环境下的档案信息资源整合与服务模式等。[2]代表性案例是湖北省宜都市档案局的档案资源建设与服务联动模式。[3]近年来,湖北省宜都市档案局以“档案服务民生”为联结点,[4]依托档案馆平台及政府门户网站、档案信息网站和农村党员远程教育网站等平台提供民生档案服务,形成档案资源建设与服务联动模式。在档案管理整合层面上,提出基础设施层、数据整合处理层、?I务应用层和公共服务层等四层档案信息资源管理模式,从不同层面上对数字档案管理方式进行整合。在档案资源内容整合层面,通过“支撑云”“业务云”“公共云”三大平台,为云计算平台提供不同层级的档案资源服务。这些模式虽然减少或避免了数字档案资源建设与服务中孤立化、片面化的现象,但是对于海量数据而言,这些模式仍受到一定的制约。   二、基于Hadoop系统的数字档案资源集成平台的构建及实现   Hadoop是一种对大规模数据进行分布式处理的系统,该系统建立在网络空间上,能够即时了解用户对档案资源利用的反馈信息,使用户在一个标准的分布式环境里随时使用所有资源和系统,形成良好的双向互动模式。Hadoop系统作为一个适合大数据的分布式存储和计算的平台,不仅能够将不同来源和格式的分布式异构数据集成在一个平台上,而且能够准确地存储档案数据,避免了检索困难、重复存档和无用存档的现象。特别是该系统极大地弥补了数字档案资源整合集成模式的缺陷。在Hadoop出现之前,高性能计算和网格计算一直是处理大数据问题的主要工具,当它需要访问PB级别的数据时,由于储存设备网络宽带的限制,很多集群计算节点处于闲置状态。针对这种数字档案资源整合与服务过程中存在的不足,Hadoop系统能够将该应用分解成许多小的部分,分配给多台计算机进行处理。通过分布式计算,能够使其在节点之间动态地移动数据,并保证各个节点的动态平衡。同时,采用并行执行机制,将一个应用程序分解为许多并行计算指令,极大地提高了数字档案资源的访问速度。   近年来,Hadoop系统已经应用在科研、教育、天气预报分析、数据库搜索、生物技术、智能交通、水火电力、大地测量、数据资源管理与服务等诸多领域。美国加州大学伯克利分校建立的开放式网络计算平台,就能够将不同的分布式计算项目连接起来,对参与这些项目的计算资源进行统一合理分配,扩展了相关科研、教学、综合档案管理等综合数字资源的有效整合。综上,Hadoop系统在理论和实践领域都已经有相当成熟的应用,完全可以为数字档案资源整合集成提供新的思路。   (一)基于Hadoop系统的数字档案资源集成平台的构建   本文利用Hadoop系统[5][6][7]的方法原理,设计出分布式数据库模型,并将部分成果用于笔者所在单位,以便实现数字档案资源的共享。笔者所在单位各职能部门均有不同的数字资源平台,这些独立平台的数字资源各自为政的现象较为严重,严重限制了资源的共享。例如,档案馆的“琼兰系统”平台,虽然能够较为精确地查询到馆内所有纸质文件和实体档案,但是无法满足海量数据的搜索。党政部门的“电子政务”平台虽然方便了校内局域网电子文档的接收,但是由于没有关键词搜索功能而无法即时同步输送文件。教务部门的“青果系统”平台虽然能够安排课程、统算教师学时数以及报送、分析成绩,但是存储授课和成绩方面的数据资源却非

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档