基于Mahout框架Hadoop平台作业日志分析平台设计与实现.docVIP

下载本文档

12
0
约8.04千字
约 16页
2018-08-28 发布于福建
举报
版权申诉

基于Mahout框架Hadoop平台作业日志分析平台设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Mahout框架Hadoop平台作业日志分析平台设计与实现

基于Mahout框架Hadoop平台作业日志分析平台设计与实现　　摘要：随着Hadoop的流行与Hadoop Yarn的出现，集群的规模越来越大。在Hadoop生态圈中对集群运行状态的开源实现已经很成熟，但是尚未有对一个对Hadoop作业的运行趋势进行统计分析的平台。本文介绍了一个面向Hadoop Yarn的作业资源统计分析平台，面向集群管理员与普通用户，以时间、用户双维度对作业进行统计分析，得出一个Hadoop作业运行的标准。　　关键词：关键词；数据分析；Hadoop；Yarn；作业分析；机器学习；Mahout 　　中图分类号：TP399 　　文献标识码：A 　　DOI： 10.3969/j.issn.1003-6970.2015.11.012 　　0 引言　　由Google公司于2004年提出的MapReduce并行计算框架目前被广泛应用于解决大规模数据处理问题。Hadoop是Apache基金会所开发的分布式系统基础架构，是Google的MapReduce编程模型的开源实习。由于Hadoop生态圈的日渐成熟，Hadoop逐渐成为许多互联网公司基础计算平台的一个核心部分。本系统在实现一个面向Hadoop生态圈的一个增强的监控分析平台。　　MapReduce拥有诸多良好特性，如负载平衡、高可扩展性以及容错等。MapReduce是当前工业界和学术界最有效的大规模数据处理问题并行解决方案之一。但由于Hadoop编程的可控性与编程人员的参差不齐，在Hadoop集群的使用过程中经常发生难以预料的错误。Hadoop日志是用户定位问题的最重要渠道，Hadoop集群也专门配置了History Server来让开发人员使用以了解其提交的作业执行情况，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。但对较长期的日志展示分析效果欠佳，集群管理人员和开发人员难以了解整个集群的指标聚合指标。　　本系统旨在基于Hadoop集群记录的作业运行日志和配置信息，统计作业在时间和用户两个维度上的运行指标，并针对一个具体作业，分析作业内任务的执行情况，进而为作业优化提供数据参考。目前笔者使用的线上集群规模为500台主机，内存为32TB，日均JOB数为两万左右。传统的作业分析软件如集群监控软件：Nigos、Ganglia、Flume等已无法满足监控需求，普通用户与集群管理员都迫切需要一个任务分析平台。　　1 hadoop生态圈相关简介　　Hadoop是一个集成了了分布式文件系统HDFS和大规模并行计算模型MapReduce的开源框架。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。在Hadoop的生态圈中，一系列的为了处理超过单机尺度的数据处理的框架因此诞生。本文主要涉及了Yam （MRv2）、Mahout、HDFs、Hive、Spark等。　　1.1 MapReduce-Hadoop的核心　　Google的网络搜索引擎在得益于算法发挥作用的同时，MapReduce在后台发挥了极大的作用。MapReduce框架成为当今大数据处理背后的最具影响力的“发动机”。除了Hadoop，你还会在MapReduce上发现MPP （Sybase IQ推出了列示数据库）和NoSQL（如Vertica和MongoDB）。　　MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题，此时分布式计算优势就体现出来。将这种技术与Linux服务器结合可获得性价比极高的替代大规模计算阵列的方法。Yahoo在2006年看到了Hadoop未来的潜力，并邀请Hadoop创始人Doug Cutting着手发展Hadoop技术，在2008年Hadoop已经形成一定的规模。Hadoop项目再从初期发展的成熟的过程中同时吸纳了一些其他的组件，以便进一步提高自身的易用性和功能。　　1.2 HDFS和MapReduce 　　对于分布式计算，每个服务器必须具备对数据的访问能力，是HDFS（Hadoop Distributed File System）所起到的作用。HDFS与MapReduce的结合是强大的。在处理大数据的过程中，当Hadoop集群中的服务器出现错误时，整个计算过程并不会终止。同时HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求，数据可以是非结构化或其它类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。　　开发人员编写代码责任是使数据有意义。HadoopMapReduce级的编程利用Java