基于Hadoop图书馆特色资源云服务关键技术研究.docVIP

下载本文档

8
0
约5.87千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop图书馆特色资源云服务关键技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop图书馆特色资源云服务关键技术研究

基于Hadoop图书馆特色资源云服务关键技术研究　　摘要：为了提升图书馆在大数据下的特色数字资源服务质量，探讨了一种更科学有效的云服务模式。采用Hadoop平台，通过对HDFS涉及的技术细节，包括体系结构、并行数据处理框架Map-reduce以及分布式数据库、HBase展开具体分析，结合广东省特色文献资源的实际情况，探讨了HDFS构建需求与可行性。提出HDFS关键技术应用于广东省特色数字资源云服务的具体方案，但实践效果还有待进一步验证。　　关键词：HDFS；云存储；数字资源；云服务　　DOI：10.11907/rjdk.172718 　　中图分类号：TP319 　　文献标识码：A 文章编号：1672-7800（2018）005-0173-03 　　Abstract：To improve the quality of library digital resource service in the trend of big data development， this paper discusses a more scientific and effective cloud service mode.The Hadoop platform is adopted to analyze the technical details of HDFS， including architecture， parallel data processing framework Map-reduce and distributed database H Base. Then based on the actual situation of the characteristic literature resources in Guangdong province， the requirement and feasibility of HDFS construction are discussed.The key technologies of HDFS are applied to the specific scheme of digital resource cloud services in Guangdong province. The practical effects need to be further verified. 　　Key Words：HDFS； cloud storage； digital resources； cloud service 　　0 引言　　随着大数据环境的日益成熟，图书馆特色文献资源将向海量图书馆数字资源方向发展。如广东省特色文献资源包括所有反映广东省特色文化的研究资料，与广东省有关人士的著述、日记、信函、传记、字画、回忆录、著作手稿、?像资料等，以及广东省地方出版物。其中，广东省内区域的特色资源数据库已经达到了近千个，涵盖了高校、社会科学研究文献机构、公共图书馆等重要文献与服务单位近百家，未来将会有具有区域特色资源的单位涌现出来。在当前大数据社会环境日益成熟的背景下，这些海量的特色文献资源对现有存储与管理系统提出了严峻挑战。如何解决文献资源海量剧增与独立文献机构存储能力不足的矛盾，成为业界探讨的一个新方向[1]。　　近年来，针对大数据的处理应用比较广泛的是Hadoop平台，该平台的重要模块HDFS，Hadoop的分布式文件存储系统，通过把传统的单一存储服务器按比例增加到成百上千数量级，形成存储服务器集群，而在集群里每一台存储服务器都能提供本地资源的上传与存储服务。Map-reduce作为Hadoop的一个重要构件，其可为HDFS分布式文件系统提供一个可扩展的平行数据处理框架。综合而言，Hadoop的特性决定其能够满足用户对海量数字资源的存储需求[2]。　　1 HDFS及其关键技术分析　　1.1 HDFS的特点　　HDFS整体架构的优越性能体现在功能设计上，具体包括：　　（1）高度容错性。HDFS集群拥有成千上万的服务器，随时都会产生系统故障，即使是常态化的系统故障也不会影响系统的可靠性，系统会在任一服务器出现故障时，以最快的速度自动恢复所有数据。HDFS架构的核心目标是周期性地自动检查该文件系统的所有设备，并对因出现故障而失效的设备进行及时的数据恢复处理[3]。　　（2）流式数据访问。HDFS的设计本来就是建立在高吞吐量数据流式访问的基础上，并非交互式的数据访问，因而可以大批量地访问海量数据集。　　（3）适合大规模数据。对于HDFS而言，其文件大小的数量级在GB字节到TB字节之间，并且运行这些文件的应用程序同时也拥有了海量数据集。HDFS支持海量规模的