- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 基于hadoop的数据仓库技术 目录 Hadoop简介 HDFS (Hadoop Distributed File System) MapReduce Hive 本文的内容主要来自三篇hadoop领域的核心论文 1、Hive—A Petabyte Scale Data Warehouse Using Hadoop 2、MapReduce and Parallel DBMSs:Friends or Foes 3、Cheetah:A High Performance,Custom Data Warehouse on Top of MapReduce 历史 2002-2004: Apache Nutch 2004-2006: Google 发表 GFS 和 MapReduce相关论文 Apache 在Nutch中实现HDFS和MapReduce 2006-2008: Hadoop 项目从Nutch中分离 2008年7月,Hadoop赢得Terabyte Sort Benchmark Doug Cutting Hadoop项目负责人 Hadoop简介 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。 Hadoop简介 Hadoop是 Apache 的一个开源软件项目,由Doug Cutting在2004年开始开发。 Hadoop是一个海量数据存储和计算的分布式系统,它由若干个成员组成,主要包括:HDFS、MapReduce、HBase、Hive、Pig 和 ZooKeeper, 其中HDFS是Google的GFS开源版本, HBase 是Google的 BigTable开源版本,ZooKeeper是Google的Chubby开源版本。 Hadoop在大量的公司中被使用和研究 Hadoop的体系架构 Hadoop由以下几个部件组成: Hadoop Common: The common utilities that support the other Hadoop subprojects. Avro: A data serialization system that provides dynamic integration with scripting languages. Chukwa: A data collection system for managing large distributed systems. HBase: A scalable, distributed database that supports structured data storage for large tables. HDFS: A distributed file system that provides high throughput access to application data. Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying. MapReduce: A software framework for distributed processing of large data sets on compute clusters. Pig: A high-level data-flow language and execution framework for parallel computation. ZooKeeper: A high-performance coordination service for distributed applications. Hadoop的体系架构 Hadoop--HDFS HDFS的结构按照GFS设计 A GFS cluster consists of a single master and multiple chunkservers and is accessed by multiple clients HDFS Fault-tolerant, 容错性 Run on commodity hardware,在通用的机器上
您可能关注的文档
- 住宅营销企划基本概念与逻辑.ppt
- 高考物理第一轮复习讲座.ppt
- 1-2建筑给水常用管材、器材.ppt
- 2011走向高考(全国版)数学A本·文科(教师讲义手册)课件8-4.ppt
- 第3章自动化工程项目设计.ppt
- 人格解析与提高智商的海马记忆训练.ppt
- 天福集团直销护肤品(理君博士).ppt
- 第3章+简单程序设计.ppt
- 第13章门电路和组合逻辑电路.ppt
- 第三章+静磁场2.ppt
- 2025年山东省威海市孙家疃镇中心小学小学语文六年级上册期末试题(含答案).pdf
- 2025年山东省威海市经技区海埠小学语文六年级小升初期末复习试卷(含答案).pdf
- 2025年山东省安全员B证模拟考试题试卷(含答案).pdf
- 单位管理制度合并选集【人力资源管理】十篇.docx
- 合同与协议的翻译2024年通用.docx
- 合同运输条款优秀(2024版).docx
- 单位管理制度合并选集【人力资源管理篇】.docx
- 合同任务书2024年通用.docx
- 2025年山东省德州市乐陵市郑店镇中杨村(社区工作人员100题含答案)高频难、易错考点模拟卷.pdf
- 2025年山东省德州市乐陵市郑店镇中杨村(社区工作人员100题含答案)高频难、易错考点模拟卷.pdf
文档评论(0)