云计算之Hadoop.pptVIP

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算之Hadoop

Hbase实现:region数据结构 Hlog 预写日志,记录提交的region更新操作 Memcache regionserver对region更新的缓存 Store集合 Region的持久化存储,一个store集合对应一个列族 Memcache达到阈值就刷一个索引文件到store集合中 Hbase实现:系统结构 Hbase访问:客户端 Java客户端 通过Hbase提供的java API 非Java客户端 通过Thrift server和REST server Shell(类SQL shell):通过HQL MR通过TableInput/OutputFormat接口 Hbase访问:元数据 客户端通过ZK获取root表信息 访问root表获取meta region的信息 访问meta region,获取用户region的信息 客户端直接访问用户region所在的region server 客户端缓存元数据信息 缓存失效则重新获取元数据 Hbase访问:读写 写请求 写请求首先提交到预写日志Hlog 同一region服务器上所有region的写请求提交到同一Hlog 数据写入region服务器的memcache Cache满则将其内容持久化到文件系统 Hlog存储在HDFS上,为了容错 读请求 首先查找memcache 找不到需要的数据则查找store集合 在store集合中按照从新到旧的顺序查找 Pig:技术背景 对海量数据的按需分析应用需求不断增加,尤其对于大规模web应用 并行数据库产品(如Teradata)提供了一种解决方案,但扩展开销太过昂贵 很多程序员习惯于过程式数据分析,这也是mapreduce之所以流行的原因之一 MapReduce很强大,但存在缺陷: 抽象层次过低,单输入两阶段数据流不够灵活,导致大量定制的客户代码,难以维护和重用。 Pig:Pig Latin Pig Latin是一种关注数据流的代数式语言,其优势在于: 提供一种高级声明式语言SQL和低级过程式mapreduce编程模型的良好折中 提高了生产率,测试结果表明: 10行Pig Latin≈200行java 4小时编写的java,Pig Latin只需15分钟 简化编程难度,适于所有程序员 提供公用操作子(join、group、filter、sort等) Pig:系统组成 Pig:工作机制 Pig Latin代码提供分析处理的业务逻辑 编译器进行各种检查,将Pig Latin代码转化为MapReduce执行计划,并对其进行优化 Hadoop集群服务器负责任务的具体执行,并向Pig返回执行结果 Pig:适合的应用 Web日志处理 Web搜索引擎中的数据处理 跨大数据集的按需分析查询 大规模数据处理算法的快速原型构建 Hive:技术背景 工业界为实现BI而收集和处理的数据规模不断曾大,以致传统的数据仓库解决方案开销太大。 Hadoop作为mapreduce的开源实现,已经非常成熟,广泛流行。可以很好的利用普通商业硬件实现海量数据的存储和处理。 但mapreduce编程模型的抽象层次较低,编程模型的限制过于严格,不利于灵活式的数据分析处理。 Hive:简介 Facebook实现的建立在Hadoop之上的开源数据仓库解决方案 支持类SQL的查询语言-HiveQL 查询语言会被Hive编译器编译成mapreduce任务,任务由执行引擎调度,具体执行在底层的hadoop集群。 Hive:适合的应用 日志处理 文本挖掘 文档索引 面向客户的商务智能(例如,谷歌分析 ) 预测模型, 假设检验 Hive:发展状况 该项目由facebook发起,facebook和其他社区的很多志愿者投入到Hive的开发之中 目前Facebook的Hive可容纳超过2PB数据,每天至少处理5000多次查询请求 下一步发展 将HiveQL从SQL的子集发展为其超级 将编译器的优化规则从基本规则扩展为基于代价和自适应的优化规则,以提供更高效的执行计划 探索更高效的数据存放策略,以提高扫描性能 提供JDBC/ODBC驱动以实现与商业BI工具更好的集成 谢谢! * 可分解就是一个大数据集可以被分解为一定数量的小数据集,可并行即任何两个任务的执行不会相互依赖, * 可分解就是一个大数据集可以被分解为一定数量的小数据集,可并行即任何两个任务的执行不会相互依赖, 云计算之Hadoop 报告人:赵辉 指导老师:杨树强 报告内容 Hadoop核心 Hadoop dfs(Hdfs) MapReduce 分布式并行计算模型 Hadoop扩展

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档