基于Hadoop数据分析系统设计毕业论文.docxVIP

下载本文档

1954
2
约3.44万字
约 71页
2017-08-10 发布于湖北
举报
版权申诉

基于Hadoop数据分析系统设计毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop数据分析系统设计毕业论文目录第一章某某企业数据分析系统设计需求分析第二章Hadoop简介第三章Hadoop单一部署3.1Hadoop集群部署拓扑图83.2安装操作系统Centos93.3Hadoop基础配置153.4SSH免密码登录183.5安装JDK193.6安装Hadoop203.6.1安装32位Hadoop203.6.2安装64位Hadoop293.7Hadoop优化333.8Hive安装与配置343.8.1 Hive安装343.8.2 使用MySQL存储Metastore343.8.3 Hive的使用373.9Hbase安装与配置389.1 Hbase安装389.2 Hbase的使用403.10集群监控工具Ganglia44第四章Hadoop批量部署4.1 安装操作系统批量部署工具Cobbler494.2 安装Hadoop集群批量部署工具Ambari55第五章使用Hadoop分析网站日志第六章总结第七章参考文献致谢某某企业数据分析系统设计需求分析某某企业成立于1999年，其运营的门户网站每年产生大概2T的日志信息，为了分析网站的日志，部署了一套Oracle数据库系统，将所有的日志信息都导入Oracle的表中。随着时间的推移，存储在Oracle数据库中的日志系统越来越大，查询的速度变得越来越慢，并经常因为查询的数据量非常大而导致系统死机。日志信息的分析成为了XX企业急需解决的问题，考虑到单机分析的扩展性与成本问题，且XX企业当前有一部分服务器处于闲置状态，最终决定在现有服务器的基础上部署一套分布式的系统来对当前大量的数据进行分析。结合淘宝目前已经部署成功的数据雷达系统，同时由于XX企业预算有限，为了节约资金，决定采用开源的Hadoop来部署公司的数据分析系统。采用Hadoop集群优势：高可靠性，能够维护多个工作数据副本，确保能够针对失败的节点重新分布处理。高扩展性，在计算机集簇间分配数据并完成计算，这些集簇可以很容易扩展到数以千计的节点中去。高效性，以并行的方式工作，通过并行处理加快处理速度。高容错性，自动保存数据多个副本，并能够自动将失败任务重新分配。廉价性，框架可以运行在任何普通的PC上。采用Hadoop集群劣势：采用单master的设计，单master的设计极大地简化了系统的设计和实现，由此带来了机器规模限制和单点失效问题。编程复杂，学习曲线过于陡峭，让许多人难以深入。开源性，在广大社区维护不断推进Hadoop的发展的同时，一旦代码出现漏洞并未被发现，而又被有心的人利用，将会对数据的安全造成毁灭性的后果。缺乏认证，Hadoop并没有对使用Hadoop的权限进行细致的划分。Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上，形成分布式系统，MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源，从而搭建自己的分布式计算平台，并且可以充分利用集群的计算和存储能力，完成海量数据的处理。Hadoop生态系统Hadoop已经发展成为包含多个子项目的集合。核心内容是MapReduce和Hadoop分布式文件系统（DHFS）。它也包含了Common、Avro、Chukwa、Hive、Hbase等子项目，他们在核心层的基础上提供了高层服务，为Hadoop的应用推广起到了重要作用。如图2.1所示：图2.1 Hadoop结构图Hadoop Core/Common从Hadoop 0.20版本开始，Hadoop 的Core 项目便更名为Common.，它是Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，主要包括FileSystem、PRC和串行化库。Hivehive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。HbaseHBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase