- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析平台Hadoop的关键技术研究
基于大数据的分析技术发展十分迅速,尤其是大数据分析平台Hadoop得到了国内各大厂商的极大关注,各方普遍基于开源的Hadoop 平台进行各种优化和定制化的改造。本文对基于Hadoop平台的大数据分析的全流程及其模块功能进行对比研究,提出对整体架构和接口进行标准化的建议,以保证数据分析平台可以在不同场景下统一使用。
1 大数据分析平台的模型结构
对比各种基于Hadoop平台的大数据分析系统,虽然功能和接口不尽相同,但是总体的架构模式是统一的,如图1所示。
数据采集
数据采集
分析结果展示
分布式存储
并行计算架构
并行分析计算
图1 模型结构
(1)数据采集负责将数据从业务系统采集到Hadoop分析系统。数据采集本身并不包含在Hadoop平台中,但是在整个分析系统中起着重要的作用,是业务系统和分析系统的桥梁,使业务系统和分析系统实现了解耦。
(2)分布式存储是大数据分析平台的存储支撑,基于Hadoop平台的大数据分析系统中基本采用HDFS作为存储子系统,也可以采用其他的云存储系统。
(3)并行计算框架是大数据分析系统的核心功能,可以很大程度提高分析效率,使用多台服务器同时进行数据分析。
(4)并行分析算法,对传统的分析算法需要基于Hadoop的并行计算框架实现并行化,才可以在Hadoop分析系统中运行。与Hadoop结合比较好的有Mahout、R语言以及国内学术界针对Hadoop框架进行并行化后的算法。
(5)分析结果展示主要是指分析结果提供给业务系统的表现形式,一般分为统计结果、数据分析结果两类。
2 大数据分析Hadoop关键技术的比较和标准化
2.1 数据采集
(1)比较分析
海量数据采集工具有Cloudera公司的Flume、Facebook的Scribe、淘宝的Time Tunnel等等,这些采集工具都支持上载到Hadoop平台。本文选取比较有代表性的数据采集工具:Cloudera的Flume和 Facebook的Scribe,其中Flume已经成为Apache的孵化项目。两者相似点:①都采用了PUSH的框架实现,即在业务系统节点获取数据PUSH到存储系统;②架构上都具有agent、collector、storage三大组件;③都提供Thrift数据同步接口;④都是分布式高可用可扩展的数据采集系统。不同点:①Flume支持多master,不存在单点故障;②Scribe只提供Thrift接口,还需要业务系统实现;③Flume提供各种丰富的agent,可以直接使用;④Flume提供丰富可用的数据源功能。
(2)标准化建议
海量数据采集标准化可以从架构和接口两方面考虑,海量数据采集架构标准化建议基于PUSH框架、架构模型至少包含agent、collector、storage三大模块、支持分布式可扩展等方面。海量数据采集接口可以基于Rest、Thrift 接口进行标准化设计。
2.2并行计算框架
(1)比较分析
基于Hadoop平台的并行计算框架包含:MAPREDUCE和YARN。并行计算框架主要是提供编程的API接口,业务系统基于API完成并行计算任务。从计算接口对比分析来看,MAPREDUCE和YARN在接口层是完全相同的,对于业务系统来说接口是统一的。
(2)标准化建议
大数据分析主要是基于并行计算框架完成,因此并行计算框架的标准化尤为关键,从以上分析可以看出,并行计算框架提供的接口基本是一致的,因此并行计算框架服务接口的标准化是可行也是必须的,具体可以通过提供java、rest、C、thrift等接口方式,在接口的具体定义上做一些标准化的工作。
2.3并行算法
(1)比较分析
数据分析算法需要在Hadoop的并行计算框架上实现并行化,可以实现的通用并行算法覆盖到了聚类、分类、贝叶斯等大部分数据挖掘算法。Mahout和R是目前比较流行的基于Hadoop的并行算法工具。
Mahout是机器学习和数据挖掘的一个分布式框架,是基于Hadoop平台设计和开发的算法工具库。Mahout已经实现的分布式算法主要包含分类、聚类、协同过滤等算法,基本覆盖了现有可供分布式的算法。
目前已经存在开源的R与Hadoop的连接器,使得R可以基于Hadoop进行数据分析,这样继承了R语言的特性,又使用了Hadoop的分布式计算环境。
Mahout是一个通用的算法库,而R是一个编程语言以及编程环境,其本身也有较多第三方包,也可以由开发者基于此工具方便的开发分析算法。
(2)标准化建议
并行算法本身标准化比较困难,可以结合特定行业方向的具体需求进行标准化,例如:电信行业并行算法的标准化以及算法输出的标准化。
2.4数据可视化
(1)比较分析
大数据的分析结果基本可以分为统计结果和挖掘分析结果。数据可视化,
您可能关注的文档
最近下载
- 超详细AMS2750E中文版.pdf
- 2021年北京市第一中西医结合医院医护人员招聘试题及答案解析.docx VIP
- 2024年北京市第一中西医结合医院人员招聘备考试题及答案解析.docx VIP
- 2022年北京市第一中西医结合医院医护人员招聘考试试题及答案解析.docx VIP
- 2022年北京市第一中西医结合医院医护人员招聘模拟试题及答案解析.docx VIP
- 压合机及回流线简介.ppt VIP
- 2023年专升本考试英语300个必背词汇.pdf VIP
- 高职养生康复技术教案.docx VIP
- 2024年北京市第一中西医结合医院人员招聘模拟试题及答案解析.docx VIP
- 2024年北京市第一中西医结合医院人员招聘备考题库及答案解析.docx VIP
文档评论(0)