大数据技术应用(国家) 知识点3:大数据存储 大数据存储.docxVIP

大数据技术应用(国家) 知识点3:大数据存储 大数据存储.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE6 / NUMPAGES6 大数据存储 大数据存储 摘 要:本章节主要讲解大数据存储,其中对大数据存储、HDFS、HBase、Hive、什么是NoSQL进行详细讲解。 关键词:存储;HDFS;HBase;Hive; 1. 大数据存储 结构化数据存储、半结构化数据存储、非结构化数据存储 1.1 大数据存储技术 HDFS、HBase、Hive、S3、Kudu、MongoDB、Neo4J、Redis、Allusion(Tachyon)、Lucene、Solr、ElasticSearch 2. HDFS基本概念 HDFS是Hadoop体系中数据存储管理的基础,它是一个高容错的系统。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序访问功能。HDFS中数据以块的形式存储,默认数据块大小为64MB,同时分布存储在集群的不同物理机器上,副本数量默认为3提供一次写入多次读取的机制。 HDFS主要由三个组件构成,分别是NameNode、SecondaryNameNode和DataNode。 (1)NameNode保存数据的元信息,主要包括:文件名目录名以及它们之间的层级关系;文件目录的所有者及其权限;每个文件块的名及其文件有哪些块组成。 Hadoop只有一个NameNode这也导致了Hadoop集群的单点故障问题,为了解决这个问题,Hadoop提供了两种机制来解决。A、将Hadoop元数据写入到本地文件系统的同时再实时同步到一个远程挂载的网络文件系统(NFS)。B、运行一个SecondaryNameNode。 (2)SecondaryNameNode它的作用是与NameNode进行交互,定期通过编辑日志文件合并命名空间镜像,当NameNode发生故障时,它会通过自己合并的空间镜像的副本来恢复,但SecondaryNameNode并不是NameNode的备份。 (3)DataNode是HDFS中的Worker节点,它负责存储数据块,也负责为系统客户端提供数据块的读写服务。 3. Hive Hive是一个构建在Hadoop上的数据仓库框架,是应Facebook每天产生的海量新兴社会网络数据进行管理和学习的需求而产生和发展起来的。Hive的设计目的是让精通SQL技能的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询。 Hive提供了一个被称为Hive查询语言的SQL方言,用来查询存储在Hadoop集群中的数据。Hive可以将大多数的查询转换为MapReduce任务(job),进而在介绍一个令人熟悉的SQL抽象的同时,拓宽Hadoop的可扩展性。 Hive不是一个完整的数据库, Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所能胜任的工作。其中最大的限制就是Hive不支持记录级别的更新、插入或者删除操作。但是用户可以通过查询生成新表或者将查询结果导人到文件中。同时,因为Hadoop是一个面向批处理的系统,而MapReduce任务(job)的启动过程需要消耗较长的时间,所以Hive查询延时比较严重。传统数据库中在秒级别可以完成的查询,在Hive中,即使数据集相对较小,往往也需要执行更长的时间。最后需要说明的是,Hive不支持事务。 因此,Hive不支持OLTP(联机事务处理)所需的关键功能,而更接近成为一个OLAP(联机分析技术)工具。但是我们将会看到,由于Hadoop本身的时间开销很大,并且Hadoop所被设计用来处理的数据规模非常大,因此提交查询和返回结果是可能具有非常大的延时的,所以Hive并没有满足OLAP中的“联机”部分,至少目前并没有满足。如果用户需要对大规模数据使用OLTP功能的语,那么应该选择使用一个NoSQL数据库,如和Hadoop结合使用的HBase。 因此,Hive是最适合数据仓库应用程序的,其可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等。 4. 什么是NoSQL NoSql是Not only SQL的缩写,泛指非关系型数据库。与RDBMS相比,NoSQL不使用SQL作为查询语言,其表没有固定的结构,具有水平扩展的特性,非常容易支撑TB乃至PB的数据量。下面列出了NoSQL的几个有点: 易扩展:NoSql数据库种类繁多,但是一个共同特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。也无形之中,在架构的层面上给用户带来了可扩展的能力。 大数据量,高性能:NoSQL数据库都具有非常高的读写性能,尤其在大数据量下表现优秀。这得益于它的无关系性,数据库的结构简单。一般MySQL使用Query Cache,每次表一更新Cache就失效,是一种大粒度的Cache。而NoSQL的Cache是记录级的。是一种细粒度的Cache,所以NoSQ

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档