大数据分析平台Hadoop的关键技术研究.docxVIP

大数据分析平台Hadoop的关键技术研究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析平台Hadoop的关键技术研究 基于大数据的分析技术发展十分迅速,尤其是大数据分析平台Hadoop得到了国内各大厂商的极大关注,各方普遍基于开源的Hadoop 平台进行各种优化和定制化的改造。本文对基于Hadoop平台的大数据分析的全流程及其模块功能进行对比研究,提出对整体架构和接口进行标准化的建议,以保证数据分析平台可以在不同场景下统一使用。 1 大数据分析平台的模型结构 对比各种基于Hadoop平台的大数据分析系统,虽然功能和接口不尽相同,但是总体的架构模式是统一的,如图1所示。 数据采集 数据采集 分析结果展示 分布式存储 并行计算架构 并行分析计算 图1 模型结构 (1)数据采集负责将数据从业务系统采集到Hadoop分析系统。数据采集本身并不包含在Hadoop平台中,但是在整个分析系统中起着重要的作用,是业务系统和分析系统的桥梁,使业务系统和分析系统实现了解耦。 (2)分布式存储是大数据分析平台的存储支撑,基于Hadoop平台的大数据分析系统中基本采用HDFS作为存储子系统,也可以采用其他的云存储系统。 (3)并行计算框架是大数据分析系统的核心功能,可以很大程度提高分析效率,使用多台服务器同时进行数据分析。 (4)并行分析算法,对传统的分析算法需要基于Hadoop的并行计算框架实现并行化,才可以在Hadoop分析系统中运行。与Hadoop结合比较好的有Mahout、R语言以及国内学术界针对Hadoop框架进行并行化后的算法。 (5)分析结果展示主要是指分析结果提供给业务系统的表现形式,一般分为统计结果、数据分析结果两类。 2 大数据分析Hadoop关键技术的比较和标准化 2.1 数据采集 (1)比较分析 海量数据采集工具有Cloudera公司的Flume、Facebook的Scribe、淘宝的Time Tunnel等等,这些采集工具都支持上载到Hadoop平台。本文选取比较有代表性的数据采集工具:Cloudera的Flume和 Facebook的Scribe,其中Flume已经成为Apache的孵化项目。两者相似点:①都采用了PUSH的框架实现,即在业务系统节点获取数据PUSH到存储系统;②架构上都具有agent、collector、storage三大组件;③都提供Thrift数据同步接口;④都是分布式高可用可扩展的数据采集系统。不同点:①Flume支持多master,不存在单点故障;②Scribe只提供Thrift接口,还需要业务系统实现;③Flume提供各种丰富的agent,可以直接使用;④Flume提供丰富可用的数据源功能。 (2)标准化建议 海量数据采集标准化可以从架构和接口两方面考虑,海量数据采集架构标准化建议基于PUSH框架、架构模型至少包含agent、collector、storage三大模块、支持分布式可扩展等方面。海量数据采集接口可以基于Rest、Thrift 接口进行标准化设计。 2.2并行计算框架 (1)比较分析 基于Hadoop平台的并行计算框架包含:MAPREDUCE和YARN。并行计算框架主要是提供编程的API接口,业务系统基于API完成并行计算任务。从计算接口对比分析来看,MAPREDUCE和YARN在接口层是完全相同的,对于业务系统来说接口是统一的。 (2)标准化建议 大数据分析主要是基于并行计算框架完成,因此并行计算框架的标准化尤为关键,从以上分析可以看出,并行计算框架提供的接口基本是一致的,因此并行计算框架服务接口的标准化是可行也是必须的,具体可以通过提供java、rest、C、thrift等接口方式,在接口的具体定义上做一些标准化的工作。 2.3并行算法 (1)比较分析 数据分析算法需要在Hadoop的并行计算框架上实现并行化,可以实现的通用并行算法覆盖到了聚类、分类、贝叶斯等大部分数据挖掘算法。Mahout和R是目前比较流行的基于Hadoop的并行算法工具。 Mahout是机器学习和数据挖掘的一个分布式框架,是基于Hadoop平台设计和开发的算法工具库。Mahout已经实现的分布式算法主要包含分类、聚类、协同过滤等算法,基本覆盖了现有可供分布式的算法。 目前已经存在开源的R与Hadoop的连接器,使得R可以基于Hadoop进行数据分析,这样继承了R语言的特性,又使用了Hadoop的分布式计算环境。 Mahout是一个通用的算法库,而R是一个编程语言以及编程环境,其本身也有较多第三方包,也可以由开发者基于此工具方便的开发分析算法。 (2)标准化建议 并行算法本身标准化比较困难,可以结合特定行业方向的具体需求进行标准化,例如:电信行业并行算法的标准化以及算法输出的标准化。 2.4数据可视化 (1)比较分析 大数据的分析结果基本可以分为统计结果和挖掘分析结果。数据可视化,

文档评论(0)

sySdoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档