- 1、本文档共108页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中生成、积累的用户网络行为数据。这些数据是如此庞大,计量单位通常达到了PB、EB甚至是ZB。Hadoop作为一个开源的分布式文件系统和并行计算编程模型得到了广泛的部署和应用。本文将介绍Hadoop完全分布式集群的具体搭建过程与基于Hive的数据分析平台的设计与实现。关键字Hadoop,MapReduce,HiveAbstractWiththeadventofcloud,bigdataalsoattractmoreandmoreattention,theenterpriseofthegenerationandaccumulationinthedailyoperationoftheusernetworkbehaviordata.Thedataissolarge,themeasuringunitisusuallyachievedthePB,EB,andeventheZB.TheHadoopdistributedfilesystemasanopensource,andparallelcomputingprogrammingmodelhasbeenwidelydeployedandapplication.ThisarticleintroducesHadoopcompletelydistributedclusterprocessofconcretestructures,andthedesignandimplementationofdataanalysisplatformbasedontheHive.keywordsHadoop,MapReduce,Hive目录第一章 某某企业数据分析系统设计需求分析 4第二章 Hadoop简介 5第三章 Hadoop单一部署 83.1 Hadoop集群部署拓扑图 83.2 安装操作系统Centos 93.3 Hadoop基础配置 153.4 SSH免密码登录 183.5 安装JDK 193.6 安装Hadoop 203.6.1安装32位Hadoop 203.6.2安装64位Hadoop 293.7 Hadoop优化 333.8 Hive安装与配置 343.8.1Hive安装 343.8.2使用MySQL存储Metastore 343.8.3Hive的使用 373.9 Hbase安装与配置 389.1Hbase安装 389.2Hbase的使用 403.10 集群监控工具Ganglia 44第四章 Hadoop批量部署 494.1安装操作系统批量部署工具Cobbler 494.2安装Hadoop集群批量部署工具Ambari 55第五章 使用Hadoop分析网站日志 64第六章 总结 68第七章 参考文献 69致谢 70第一章 某某企业数据分析系统设计需求分析某某企业成立于1999年,其运营的门户网站每年产生大概2T的日志信息,为了分析网站的日志,部署了一套Oracle数据库系统,将所有的日志信息都导入Oracle的表中。随着时间的推移,存储在Oracle数据库中的日志系统越来越大,查询的速度变得越来越慢,并经常因为查询的数据量非常大而导致系统死机。日志信息的分析成为了XX企业急需解决的问题,考虑到单机分析的扩展性与成本问题,且XX企业当前有一部分服务器处于闲置状态,最终决定在现有服务器的基础上部署一套分布式的系统来对当前大量的数据进行分析。结合淘宝目前已经部署成功的数据雷达系统,同时由于XX企业预算有限,为了节约资金,决定采用开源的Hadoop来部署公司的数据分析系统。 采用Hadoop集群优势:1. 高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布处理。2. 高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易扩展到数以千计的节点中去。3. 高效性,以并行的方式工作,通过并行处理加快处理速度。4. 高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。5. 廉价性,框架可以运行在任何普通的PC上。 采用Hadoop集群劣势:1. 采用单master的设计,单master的设计极大地简化了系统的设计和实现,由此带来了机器规模限制和单点失效问题。2. 编程复杂,学习曲线过于陡峭,让许多人难以深入。3. 开源性,在广大社区维护不断推进Hadoop的发展的同时,一旦代码出现漏洞并未被发现,而又被有心的人利用,将会对数据的安全造成毁灭性的后果。4. 缺乏认证,Hadoop并没有对使用Hadoop的权限进行细致的划分。第二章 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构
您可能关注的文档
- 基于Android系统的音乐播放器的设计与实现详细分解.doc
- 基于ARM9的WLAN接入与监控设计(智能家居)详细分解.doc
- 基于ARM的嵌入式监控终端的设计与实现详细分解.doc
- 基于AT89C51单片机的燃气灶智能控制器设计【毕业论文,绝对精品】详细分解.doc
- 基于AT89C51的简易数字电压表设计详细分解.doc
- 基于AT89C52单片机的出租车计价器设计详细分解.doc
- 基于AT89S51单片机的数字电子钟设计详细分解.doc
- 基于ATC单片机控制的双闭环直流调速系统设计详细分解.doc
- 基于AT单片机的SHT温湿度测试仪(正式)详细分解.doc
- 基于B_S结构宾馆客房管理系统详细分解.doc
- 2023届黑龙江哈尔滨第三中学高三二模英语试题 (解析版).docx
- 三校生对口升学考试计算机专题复习试题及答案解析.pdf
- 2023届江西省鄱阳县第一中学高三一模英语试题(原卷版).docx
- 2024届甘肃省高三下学期二模物理试题(解析版).pdf
- 2023届江苏省南京市等2地南京市教育科学研究所等2校一模英语试题(原卷版).docx
- 2023届江西省萍乡市芦溪中学高三一模英语试题(解析版).docx
- 2024届甘肃省高三二模语文试题(原卷版).pdf
- 2023届河南省郑州市高中毕业年级第二次质量预测英语试题(解析版).docx
- 2023届江西省抚州市金溪县第一中学等七校高三下学期第一次联考英语试卷(原卷版).docx
- 2023届吉林省吉林市普通中学高三上学期第二次调研测试英语试题(解析版).docx
文档评论(0)