大数据分析平台Hadoop的关键技术研究.docxVIP

下载本文档

94
0
约2.3千字
约 3页
2022-05-31 发布于江苏
举报
版权申诉

大数据分析平台Hadoop的关键技术研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据分析平台Hadoop的关键技术研究基于大数据的分析技术发展十分迅速，尤其是大数据分析平台Hadoop得到了国内各大厂商的极大关注，各方普遍基于开源的Hadoop 平台进行各种优化和定制化的改造。本文对基于Hadoop平台的大数据分析的全流程及其模块功能进行对比研究，提出对整体架构和接口进行标准化的建议，以保证数据分析平台可以在不同场景下统一使用。 1 大数据分析平台的模型结构对比各种基于Hadoop平台的大数据分析系统，虽然功能和接口不尽相同，但是总体的架构模式是统一的，如图1所示。数据采集数据采集分析结果展示分布式存储并行计算架构并行分析计算图1 模型结构（1）数据采集负责将数据从业务系统采集到Hadoop分析系统。数据采集本身并不包含在Hadoop平台中，但是在整个分析系统中起着重要的作用，是业务系统和分析系统的桥梁，使业务系统和分析系统实现了解耦。（2）分布式存储是大数据分析平台的存储支撑，基于Hadoop平台的大数据分析系统中基本采用HDFS作为存储子系统，也可以采用其他的云存储系统。（3）并行计算框架是大数据分析系统的核心功能，可以很大程度提高分析效率，使用多台服务器同时进行数据分析。（4）并行分析算法，对传统的分析算法需要基于Hadoop的并行计算框架实现并行化，才可以在Hadoop分析系统中运行。与Hadoop结合比较好的有Mahout、R语言以及国内学术界针对Hadoop框架进行并行化后的算法。（5）分析结果展示主要是指分析结果提供给业务系统的表现形式，一般分为统计结果、数据分析结果两类。 2 大数据分析Hadoop关键技术的比较和标准化 2.1 数据采集（1）比较分析海量数据采集工具有Cloudera公司的Flume、Facebook的Scribe、淘宝的Time Tunnel等等，这些采集工具都支持上载到Hadoop平台。本文选取比较有代表性的数据采集工具：Cloudera的Flume和 Facebook的Scribe，其中Flume已经成为Apache的孵化项目。两者相似点：①都采用了PUSH的框架实现，即在业务系统节点获取数据PUSH到存储系统；②架构上都具有agent、collector、storage三大组件；③都提供Thrift数据同步接口；④都是分布式高可用可扩展的数据采集系统。不同点：①Flume支持多master，不存在单点故障；②Scribe只提供Thrift接口，还需要业务系统实现；③Flume提供各种丰富的agent，可以直接使用；④Flume提供丰富可用的数据源功能。（2）标准化建议海量数据采集标准化可以从架构和接口两方面考虑，海量数据采集架构标准化建议基于PUSH框架、架构模型至少包含agent、collector、storage三大模块、支持分布式可扩展等方面。海量数据采集接口可以基于Rest、Thrift 接口进行标准化设计。 2.2并行计算框架（1）比较分析基于Hadoop平台的并行计算框架包含：MAPREDUCE和YARN。并行计算框架主要是提供编程的API接口，业务系统基于API完成并行计算任务。从计算接口对比分析来看，MAPREDUCE和YARN在接口层是完全相同的，对于业务系统来说接口是统一的。（2）标准化建议大数据分析主要是基于并行计算框架完成，因此并行计算框架的标准化尤为关键，从以上分析可以看出，并行计算框架提供的接口基本是一致的，因此并行计算框架服务接口的标准化是可行也是必须的，具体可以通过提供java、rest、C、thrift等接口方式，在接口的具体定义上做一些标准化的工作。 2.3并行算法（1）比较分析数据分析算法需要在Hadoop的并行计算框架上实现并行化，可以实现的通用并行算法覆盖到了聚类、分类、贝叶斯等大部分数据挖掘算法。Mahout和R是目前比较流行的基于Hadoop的并行算法工具。 Mahout是机器学习和数据挖掘的一个分布式框架，是基于Hadoop平台设计和开发的算法工具库。Mahout已经实现的分布式算法主要包含分类、聚类、协同过滤等算法，基本覆盖了现有可供分布式的算法。目前已经存在开源的R与Hadoop的连接器，使得R可以基于Hadoop进行数据分析，这样继承了R语言的特性，又使用了Hadoop的分布式计算环境。 Mahout是一个通用的算法库，而R是一个编程语言以及编程环境，其本身也有较多第三方包，也可以由开发者基于此工具方便的开发分析算法。（2）标准化建议并行算法本身标准化比较困难，可以结合特定行业方向的具体需求进行标准化，例如：电信行业并行算法的标准化以及算法输出的标准化。 2.4数据可视化（1）比较分析大数据的分析结果基本可以分为统计结果和挖掘分析结果。数据可视化，