基于大数据境的异构数据统一访问与转化系统.doc

基于大数据境的异构数据统一访问与转化系统.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
图书馆大数据环境下的异构数据统一访问与转化系统 Uniform access and transformation system for heterogeneous data in the large data environment of Library 关键字:大数据,异构数据,访问,转换 Abstract: The application of modern library to the information technology is omni-directional, the storage and management of the data in the modern library have already reached the level of TB. And, with the diversification of library information, data sources will become increasingly diverse. In the face of the data in different hardware and software environment, the face of various databases of different forms of performance and a variety of different data formats. How to deal with and analyze these data sources and data formats which have huge differences in TB level measurement will be the primary problem in the application of library data in the future. Keywords: large data, heterogeneous data, access, conversion 中图法分类:G20 1.背景 计算机专家和研究人员经过二十多年的探索和实践,对信息数据的统一访问提出过很多的理论和技术框架。这些众多的理论和技术方案从模型上可以分为三类:1.数据仓库,2.联邦方式,3.中间件方式。如果从技术方案上分类,也可以分为三类:1.多数据库系统,2.迁移和转换,3.使用中间件方式。哪种理论和技术适合图书馆大数据环境下的异构数据统一访问与转换呢? 2.相关技术介绍 2.1HBase数据库技术简介 Hadoop Database通常缩写为HBase。HBase是高性能、高可靠性、可伸缩、面向列的一个分布式存储系统,利用它可以方便的搭建大规模机构化存储集群。 2007年10月,HBase第一个版本随着Hadoop 0.15.0捆绑发布。很快,2010年5月,HBase从Hadoop子项目升级为Apache的顶层项目。如下图2.1所示,构成图中描述了Haddoop System中的各层系统模块, HBase位于结构化存储层。其中,Hadoop HDFS则为HBase提供高可靠性的底层存储支持,Zookeeper为HBase提供了failover机制和稳健的服务, Hadoop MapReduce为HBase提供了高性能的计算支持。Pig和Hive为HBase提供了高层语言支持,使得在HBase上进行数据统计变得简单,Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库向HBase的迁移变得非常方便。[1] 图2.1 Hadoop构成图 如下图2.2所示HBase系统架构中HBase Client 使用HBase的RPC机制实现与HMaster和HRegionServer进行通信,其中管理类操作由Client与HMaster进行RPC;数据读写类操作运行RPC则由Client与HRegionServer进行。除-ROOT-表的地址和HMaster的地址都存储在Zookeeper中以外,Zookeeper还存储HRegionServer把以Ephemeral方式的注册。这样不但避免了HMaster的单点问题,而且使得HMaster可以随时感知到各个HRegionServer的健康状态。HRegionServer是HBase中最核心的模块,它负责响应用户I/O请求,向HDFS文件中读写数据。[2] 图2.2 HBase系统架构 2.2 Hadoop MapReduce框架 Hadoop MapReduce是一个软件框架,基于这个框架开发的程序可以运行在集群服务器上,并且以高容错的方式处理T级别的数据群。著名的google公司在处理海量原始数据上积累了

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档