- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop系统数字档案资源集成平台构建及实现
基于Hadoop系统数字档案资源集成平台构建及实现
摘要:本文针对现有资源平台的不足,结合信息技术的最新发展,引入分布式技术,设计了基于Hadoop系统的数字档案资源整合集成平台模式,并对该模式进行研究。
关键词:集成平台服务模式分布式技术
目前,国家正在大力推进档案资源网络化,要求充分利用已有的信息传输网络,实现资源共享。[1]传统的数据管理方式易导致信息分散保存、重复保存、收集困难、检索困难、移交困难和协作脱节等问题,不利于档案资源多领域的共享与利用,在这种情况下,亟需改变落后的数据管理方式,提升效率,实现数据的现代化管理。
一、我国数字档案资源整合集成模式的现状
所谓数字档案资源指的是国家数字信息资源的核心资源,包括电子档案、传统载体档案数字化副本、元数据、系统数据以及其他需要长期保存的数字信息等,其具有凭证、记忆、身份认同、社区能力构建等多元价值属性。通过对海量数字档案数据的收集、分析、处理和利用,能够更好地应对社会的发展。既有的档案数字资源如果能够通过某一平台得到整合与集中,那么数字档案资源利用将得到极大的发挥,档案服务民生的作用也将得到进一步体现。可以说,对数字档案资源整合集成模式的研究,就是提升档案资源服务能力的有效手段。
目前,我国有多种数字档案资源整合集成模式。例如,基于档案网站的数字档案资源整合模式、电子政务环境下的档案资源整合与共享模式。此外,还有交互式数字档案服务模式[1]和云计算环境下的档案信息资源整合与服务模式等。[2]代表性案例是湖北省宜都市档案局的档案资源建设与服务联动模式。[3]近年来,湖北省宜都市档案局以“档案服务民生”为联结点,[4]依托档案馆平台及政府门户网站、档案信息网站和农村党员远程教育网站等平台提供民生档案服务,形成档案资源建设与服务联动模式。在档案管理整合层面上,提出基础设施层、数据整合处理层、?I务应用层和公共服务层等四层档案信息资源管理模式,从不同层面上对数字档案管理方式进行整合。在档案资源内容整合层面,通过“支撑云”“业务云”“公共云”三大平台,为云计算平台提供不同层级的档案资源服务。这些模式虽然减少或避免了数字档案资源建设与服务中孤立化、片面化的现象,但是对于海量数据而言,这些模式仍受到一定的制约。
二、基于Hadoop系统的数字档案资源集成平台的构建及实现
Hadoop是一种对大规模数据进行分布式处理的系统,该系统建立在网络空间上,能够即时了解用户对档案资源利用的反馈信息,使用户在一个标准的分布式环境里随时使用所有资源和系统,形成良好的双向互动模式。Hadoop系统作为一个适合大数据的分布式存储和计算的平台,不仅能够将不同来源和格式的分布式异构数据集成在一个平台上,而且能够准确地存储档案数据,避免了检索困难、重复存档和无用存档的现象。特别是该系统极大地弥补了数字档案资源整合集成模式的缺陷。在Hadoop出现之前,高性能计算和网格计算一直是处理大数据问题的主要工具,当它需要访问PB级别的数据时,由于储存设备网络宽带的限制,很多集群计算节点处于闲置状态。针对这种数字档案资源整合与服务过程中存在的不足,Hadoop系统能够将该应用分解成许多小的部分,分配给多台计算机进行处理。通过分布式计算,能够使其在节点之间动态地移动数据,并保证各个节点的动态平衡。同时,采用并行执行机制,将一个应用程序分解为许多并行计算指令,极大地提高了数字档案资源的访问速度。
近年来,Hadoop系统已经应用在科研、教育、天气预报分析、数据库搜索、生物技术、智能交通、水火电力、大地测量、数据资源管理与服务等诸多领域。美国加州大学伯克利分校建立的开放式网络计算平台,就能够将不同的分布式计算项目连接起来,对参与这些项目的计算资源进行统一合理分配,扩展了相关科研、教学、综合档案管理等综合数字资源的有效整合。综上,Hadoop系统在理论和实践领域都已经有相当成熟的应用,完全可以为数字档案资源整合集成提供新的思路。
(一)基于Hadoop系统的数字档案资源集成平台的构建
本文利用Hadoop系统[5][6][7]的方法原理,设计出分布式数据库模型,并将部分成果用于笔者所在单位,以便实现数字档案资源的共享。笔者所在单位各职能部门均有不同的数字资源平台,这些独立平台的数字资源各自为政的现象较为严重,严重限制了资源的共享。例如,档案馆的“琼兰系统”平台,虽然能够较为精确地查询到馆内所有纸质文件和实体档案,但是无法满足海量数据的搜索。党政部门的“电子政务”平台虽然方便了校内局域网电子文档的接收,但是由于没有关键词搜索功能而无法即时同步输送文件。教务部门的“青果系统”平台虽然能够安排课程、统算教师学时数以及报送、分析成绩,但是存储授课和成绩方面的数据资源却非
您可能关注的文档
- 基于Hadoop数据系统数字档案馆信息服务模式研究.doc
- 基于Hadoop数据中心在电力企业应用研究.doc
- 基于Hadoop数据聚类算法研究.doc
- 基于Hadoop智能电网监控系统设计与实现.doc
- 基于Hadoop构架系统平台.doc
- 基于Hadoop校园网盘设计与实现.doc
- 基于Hadoop海量xml索引查询方案.doc
- 基于Hadoop海量小文件存储方法研究.doc
- 基于Hadoop海量嘈杂数据决策树算法实现.doc
- 基于Hadoop海量数据存储技术研究.doc
- 地理信息科学_第三次农业普查影像数字化项目.pdf
- 土地利用变化分析实验.docx
- 2025年中考语文二轮复习备考:小说阅读理解提高练(含答案).docx
- 2025年黑龙江省哈尔滨市中考一模英语试题2(含答案).docx
- 2024-2025学年高一(下)期中语文试卷(含解析).docx
- 贵州省毕节市金沙县第四中学2024-2025学年春季学期第一次月考考试试卷七年级语文(含答案).docx
- 2025年人教版九年级中考英语语法专题练习 特殊句型(含答案).docx
- 2025年湖北省襄阳市襄州区中考二模语文试题(含答案).docx
- 贵州省安顺市2025届高三下学期4月适应性考试语文试题(含答案).docx
- 湖北省仙桃市田家炳实验高级中学2024-2025学年高一下学期4月期中考试语文试题(含答案).docx
文档评论(0)