- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大 数 据 介 绍;“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。;;;数据抽取、转换、装载过程 ;大数据处理的基本流程;三、各处理流程相关技术简析;三、各处理流程相关技术简析;三、各处理流程相关技术简析;三、各处理流程相关技术简析;三、各处理流程相关技术简析;三、各处理流程相关技术简析;方案采用的Hadoop模块列表
HDFS,用于大规模数据存储
Yarn,系统资源管理
Hive,基于Mapreduce的SQL数据访问
Pig,脚本式数据处理
Storm,流式数据处理
Spark/Spark Streaming,内存计算框架
HBase,Key-Value数据存储
MapReduce,离线批处理计算框架
Kafka,消息队列式流失数据接入
HCatlog,元数据管理
Ambari,Hadoop平台监控、管理界面
ZooKeeper,保证系统无单点运行
Oozie,工作流式任务调度
;揭开Hadoop神秘的面纱;HDFS原理简介-分布式文件系统;HBase原理简介-分布式数据库;;9.1.1.?NoSQL?
HBase是一种 NoSQL 数据库. NoSQL是一个通用词表示数据库不是RDBMS ,后者支持 SQL 作为主要访问手段。HBase 是大型分布式数据库。 技术上来说, HBase 更像是数据存储(Data Store) 多于 数据库(Data Base)。因为缺少很多RDBMS特性, 如列类型,第二索引,触发器,高级查询语言等.
然而, HBase 有许多特征同时支持线性化和模块化扩充。 HBase 集群通过增加RegionServers进行扩充。 它可以放在普通的服务器中。例如,如果集群从10个扩充到20个RegionServer,存储空间和处理容量都同时翻倍。 RDBMS 也能很好扩充, 但仅对一个点 - 特别是对一个单独数据库服务器的大小 - 同时,为了更好的性能,需要特殊的硬件和存储设备。
HBase 特性:
强一致性读写: HBase 不是 最终一致性(eventually consistent) 数据存储. 这让它很适合高速计数聚合类任务。
自动分片(Automatic sharding): HBase 表通过region分布在集群中。数据增长时,region会自动分割并重新分布。
RegionServer 自动故障转移
Hadoop/HDFS 集成: HBase 支持本机外HDFS 作为它的分布式文件系统。
MapReduce: HBase 通过MapReduce支持大并发处理, HBase 可以同时做源和目标.
Java 客户端 API: HBase 支持易于使用的 Java API 进行编程访问.
Thrift/REST API: HBase 也支持Thrift 和 REST 作为非Java 前端.
Block Cache 和 Bloom Filters: 对于大容量查询优化, HBase支持 Block Cache 和 Bloom Filters。
运维管理: HBase提供内置网页用于运维视角和JMX 度量.
9.1.2.?什么时候用 HBase?
HBase不适合所有问题.
首先,确信有足够多数据,如果有上亿或上千亿行数据,HBase是很好的备选。 如果只有上千或上百万行,则用传统的RDBMS可能是更好的选择。因为所有数据可以在一两个节点保存,集群其他节点可能闲置。
其次,确信可以不依赖所有RDBMS的额外特性 (e.g., 列数据类型, 第二索引, 事物,高级查询语言等.) 一个建立在RDBMS上应用,如不能仅通过改变一个JDBC驱动移植到HBase。相对于移植, 需考虑从RDBMS 到 HBase是一次完全的重新设计。
第三, 确信你有足够硬件。甚至 HDFS 在小于5个数据节点时,干不好什么事情 (根据如 HDFS 块复制具有缺省值 3), 还要加上一个 NameNode.
HBase 能在单独的笔记本上运行良好。但这应仅当成开发配置。
9.1.3.? HBase 和 Hadoop/HDFS 的区别?
HDFS?是分布式文件系统,适合保存大文件。官方宣称它并非普通用途文件系统,不提供文件的个别记录的快速查询。 另一方面,HBase基于HDFS且提供大表的记录快速查找(和更新)。这有时可能引起概念混乱。 HBase 内部将数据放到索引好的 存储文件(StoreFiles) ,以便高速查询。存储文件位于 HDFS中。参考Chapter?5,?数据模型?和该章其他内容获取更多HBase如何归档的信息。
;MapReduce原理简介-分布式计算架构;二、、分布式并行
您可能关注的文档
- 高校餐饮供应链管理模式创新与流程再造 .ppt
- 高校信息化解决方案 .ppt
- 高效的工作汇报依据SMART原则 .ppt
- 高效配送中心解决方案 .ppt
- 高效执行4原则 .pptx
- 高血压病的慢病管理 .ppt
- 高血压病的前世今生 .ppt
- 高血压病教学查房 .ppt
- 高血压病人的护理要点 .ppt
- 高血压的护理常规 .ppt
- 2025至2030全球及中国订单管理软件行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030国内液晶显示屏行业市场发展分析及竞争策略与投资发展报告.docx
- 2025至2030港口设备市场前景分析及细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030量子加密通信行业发展现状及投资前景战略报告.docx
- 2025至2030中国音乐合成器行业运营态势与投资前景调查研究报告.docx
- 2025至2030中国液压行业市场发展现状及竞争格局与投资机会报告.docx
- 2025至2030中国异戊橡胶行业运营态势与投资前景调查研究报告.docx
- 2025至2030帕西肽行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030全球及中国超收敛集成系统行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030尖齿铣刀行业市场占有率及有效策略与实施路径评估报告.docx
最近下载
- 智能车辆故障诊断维修手册.doc VIP
- 安徽省高中学业水平测试各科(语数英)试题及答案 .pdf VIP
- 2025至2030中国糖尿病食品行业市场发展分析及前景趋势与行业深度研究及发展前景投资评估分析.docx VIP
- 2025年水务企业运营管理手册.docx VIP
- 房屋市政工程施工安全日志(填写要求).docx
- 基于深度学习的家蚕病害识别.pdf VIP
- DCS受电方案(1)_原创精品文档.pdf VIP
- ZL50装载机工作装置设计及说明书.doc VIP
- 西南民族大学《解剖生理学》2021-2022学年第一学期期末试卷.doc VIP
- 2024-2025学年天津市河西区七年级(上)期末数学试卷含答案.pdf VIP
原创力文档


文档评论(0)