- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE6 / NUMPAGES6
大数据存储
大数据存储
摘 要:本章节主要讲解大数据存储,其中对大数据存储、HDFS、HBase、Hive、什么是NoSQL进行详细讲解。
关键词:存储;HDFS;HBase;Hive;
1. 大数据存储
结构化数据存储、半结构化数据存储、非结构化数据存储
1.1 大数据存储技术
HDFS、HBase、Hive、S3、Kudu、MongoDB、Neo4J、Redis、Allusion(Tachyon)、Lucene、Solr、ElasticSearch
2. HDFS基本概念
HDFS是Hadoop体系中数据存储管理的基础,它是一个高容错的系统。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序访问功能。HDFS中数据以块的形式存储,默认数据块大小为64MB,同时分布存储在集群的不同物理机器上,副本数量默认为3提供一次写入多次读取的机制。
HDFS主要由三个组件构成,分别是NameNode、SecondaryNameNode和DataNode。
(1)NameNode保存数据的元信息,主要包括:文件名目录名以及它们之间的层级关系;文件目录的所有者及其权限;每个文件块的名及其文件有哪些块组成。
Hadoop只有一个NameNode这也导致了Hadoop集群的单点故障问题,为了解决这个问题,Hadoop提供了两种机制来解决。A、将Hadoop元数据写入到本地文件系统的同时再实时同步到一个远程挂载的网络文件系统(NFS)。B、运行一个SecondaryNameNode。
(2)SecondaryNameNode它的作用是与NameNode进行交互,定期通过编辑日志文件合并命名空间镜像,当NameNode发生故障时,它会通过自己合并的空间镜像的副本来恢复,但SecondaryNameNode并不是NameNode的备份。
(3)DataNode是HDFS中的Worker节点,它负责存储数据块,也负责为系统客户端提供数据块的读写服务。
3. Hive
Hive是一个构建在Hadoop上的数据仓库框架,是应Facebook每天产生的海量新兴社会网络数据进行管理和学习的需求而产生和发展起来的。Hive的设计目的是让精通SQL技能的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询。
Hive提供了一个被称为Hive查询语言的SQL方言,用来查询存储在Hadoop集群中的数据。Hive可以将大多数的查询转换为MapReduce任务(job),进而在介绍一个令人熟悉的SQL抽象的同时,拓宽Hadoop的可扩展性。
Hive不是一个完整的数据库, Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所能胜任的工作。其中最大的限制就是Hive不支持记录级别的更新、插入或者删除操作。但是用户可以通过查询生成新表或者将查询结果导人到文件中。同时,因为Hadoop是一个面向批处理的系统,而MapReduce任务(job)的启动过程需要消耗较长的时间,所以Hive查询延时比较严重。传统数据库中在秒级别可以完成的查询,在Hive中,即使数据集相对较小,往往也需要执行更长的时间。最后需要说明的是,Hive不支持事务。
因此,Hive不支持OLTP(联机事务处理)所需的关键功能,而更接近成为一个OLAP(联机分析技术)工具。但是我们将会看到,由于Hadoop本身的时间开销很大,并且Hadoop所被设计用来处理的数据规模非常大,因此提交查询和返回结果是可能具有非常大的延时的,所以Hive并没有满足OLAP中的“联机”部分,至少目前并没有满足。如果用户需要对大规模数据使用OLTP功能的语,那么应该选择使用一个NoSQL数据库,如和Hadoop结合使用的HBase。
因此,Hive是最适合数据仓库应用程序的,其可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等。
4. 什么是NoSQL
NoSql是Not only SQL的缩写,泛指非关系型数据库。与RDBMS相比,NoSQL不使用SQL作为查询语言,其表没有固定的结构,具有水平扩展的特性,非常容易支撑TB乃至PB的数据量。下面列出了NoSQL的几个有点:
易扩展:NoSql数据库种类繁多,但是一个共同特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。也无形之中,在架构的层面上给用户带来了可扩展的能力。
大数据量,高性能:NoSQL数据库都具有非常高的读写性能,尤其在大数据量下表现优秀。这得益于它的无关系性,数据库的结构简单。一般MySQL使用Query Cache,每次表一更新Cache就失效,是一种大粒度的Cache。而NoSQL的Cache是记录级的。是一种细粒度的Cache,所以NoSQ
您可能关注的文档
- 产品检验技术 产品检验技术 项目一任务1 认识生物产品检验室.doc
- 产品检验技术 产品检验技术 项目一任务2准备和使用玻璃仪器.doc
- 产品设计与构造 产品设计与构造 附录4 AutoCAD常用命令详解.doc
- 产品设计与构造 产品设计与构造 项目二 图形的绘制与编辑.doc
- 产品设计与构造 产品设计与构造 项目六 轴测图绘制与标注.doc
- 产品设计与构造 产品设计与构造 项目七 三维图绘制与标注.doc
- 昌飞培训 维修电工 维修电工(技师)理论复习资料.doc
- 常见疾病康复 肩周炎的康复治疗、肩周炎概述 肩复合体的Codman's paradox和Codman exercise.docx
- 超声检测技术 教案 6-3 管材的超声检测特点及方法.doc
- 超声检测技术 教案 7-1 焊接接头超声检测特点及方法.doc
- 单片机技术应用 单片机拓展项目 实验16--温度传感器DS18B20-实验指导书.docx
- 单片机技术应用项目录像和仿真学习 项目1LED显示屏 项目1LED显示屏——学习包使用界面.doc
- 单片机技术与应用old 单片机技术与应用old 单片机试题20答案.doc
- 单片机技术与应用old 第6章智能调光系统 项目——远程压力监控和智能调光系统综合测试试卷2答案.doc
- 单片机技术与应用old 第7章多路温度巡检仪 项目——温度测控单元测试试卷三.doc
- 单片机控制系统运行与维护 任务6.1 串行通信基础 串行通信接口.doc
- 单片机应用技术 单片机应用技术 《单片机应用技术》教案.doc
- 单片机应用技术 单片机应用技术 《单片机应用技术》实验指导书.docx
- 道路交通控制技术 仿真干道信号协调控制方案 干道协调控制仿真实验报告模板.doc
- 地理信息系统基础(2018版) 8.1.1网络地理信息系统 j8.1.1-1 网络地理信息系统(教学设计方案).doc
最近下载
- 工程材料重点名词解释与简答题.docx VIP
- 20240319-方正证券-房地产行业深度报告:“日本启示”系列专题(一),溯日本地产兴衰,寻中日地产异同.pdf VIP
- (完整版)食品安全管理制度目录及内容.pdf VIP
- 山东第一医科大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 《冬季用电防火安全知识》PPT班会.pptx VIP
- 中国中车2021-2023年度财务报表分析.docx VIP
- TCNAS49-2025成人泌尿造口护理学习解读课件附送标准全文word版.pptx
- 山东第一医科大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 弥漫大B细胞淋巴瘤治疗新进展.ppt VIP
- 建筑节能专项施工方案(四建)31页.doc VIP
原创力文档


文档评论(0)