- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析平台Hadoo关键技术
大数据分析平台Hadoo关键技术
摘 要本文着重研究了基于Hadoop平台大数据的分析技术的发展和功能模块的应用,对关键技术进行比较分析,将整体结构框架进行改良,使数据分析平台在不受场景限制的前提下进行使用。
【关键词】大数据分析技术 计算结构框架 并行分析算法 Hadoop
1 大数据分析平台的模型结构
虽然在Hadoop中各分析平台的接口和应用功能单一不同,但它们有着统一的结构框架,如图1所示。
(1)数据采集不明思意就是采集数据,将数据进行采集整理,进而保存到数据库里面。数据采集属于系统外的一部分,但它发挥着不可替代的作用,连接了业务系统和分析系统,使得系统间能够紧密联系。
(2)分布式储存是大数据分析平台储存数据的前提,在Hadoop平台中将HDFS作为储存的子系统,但并不只局限于这一种,可以作为云储存系统的有多种。
(3)并行计算框架的利用在很大程度上提高了系统的运算效率,实现了多台服务器同时进行数据运算,大大的提高了系统分析的效率。
(4)并行分析算法,传统的分析算法是单一的,要想实现并行计算需要结合基于Hadoop的并行计算方法。经过分析研究,与Hadoop相匹配的算法有多种,其中作用明显的有Mahout和R语言等算法。
(5)分析结果的工作是将系统的数据分析结果传送给系统,一般分为统计结果和数据分析结果两大类。
2 大数据分析Hadoop关键技术的比较和标准化
在大数据分析平台的基础上,下文对Hadoop中数据采集、并行计算框架、并行算法以及数据可视化的关键技术进行比较分析,并给出标准化的相关建议。
2.1 数据采集
2.1.1 比较分析
在本文中经过统计研究,选出了与系统相匹配的工具,主要有Flume和 Scribe,其中Flume已经被深度研究。两者有很多相同之处:
(1)都是采用了PUSH的结构框架,通过业务系统节点来收集数据,并传送到储存系统;
(2)结构框架中都含有agent、collector、storage三个重要部分;
(3)都由相同的Thrift数据结构连接;
(4)有相同的数据收集系统采集数据。
不同点有:
(1)Flume支持多master格式,不会出现单点故障等问题;
(2)Scribe需要系统的支持才能供Thrift接口
(3)Flume提供的agent具有多样性,并可以直接使用。
(4)Flume可以提供多样性的数据源功能。
2.1.2 标准化建议
要保证海量数据达到标准化的程度,主要可以从系统框架和相关接口两个方面来考虑,系统框架就是通过相关工具软件进行辅助,将系统框架进行结构完善。接口则需要进行大量的挑选和实验,保证可以和系统高密度的契合,通过接口将系统进行结构优化。
2.2 并行计算框架
2.2.1 比较分析
以Hadoop平台为基础的并行计算结构框架有MAPREDUCE和YARN。并行计算框架的功能有着不可替代和单一的特点,是API的接口编程过程中非常重要的一部分,业务系统通过API来进一步完成任务。从计算机的接口方面衡量MAPREDUCE和YARN,它们的接口相似度非常高,也可以看出系统将的各个接口相似度都非常高,这也降低了接口的自身要求。
2.2.2 标准化建议
计算结构框架可以说是数据分析过程的基础,是进行数据计算的重要前提,由上文的分析中可以知道并行计算的结构框架都相同的,因此并行计算结构框架的标准化是否可行十分重要。
2.3 并行算法
2.3.1 比较分析
由于并行计算结构框架的出现使得数据分析计算可以同时进行,并行算法的不断发展,已经应用到了聚类、分类、贝叶斯等数据复杂的领域。在Hadoop中比较实用的并行算法主要是Mahout和R。
Mahout作为一个收集和贮藏数据的数据库,R作为一个编程工具和软件,它们在起初就已经被很多人承包,但不妨碍开发者继续在此基础上进行分析算法开发。
2.3.2 标准化建议
要实现并行算法标准化的难度非常大,如果不从全局的角度考虑,很难找到突破口,可以像电信行业实现并行计算标准化那样从特殊行业方面进行深一步研究。
2.4 数据可视化
2.4.1 比较分析
基于Hadoop分析平台的大数据分析结果包括统计结果和收集结果。数据可视化以图表的方式让人们进行结果了解。Hadoop平台中的计算结构框架统一相同,但是分析结果却有两种形式,一种是将HDFS、Key-Value、HBASE直接进行储存;另一种是将数据分析结果直接放在数据库里面。这种分析结果可以由各个厂商进行数据分析展示。
2.4.2 标准化建议
您可能关注的文档
最近下载
- 阿尔茨海默病临床诊疗新进展题库答案-2025年华医网继续教育.docx VIP
- HJ T397-2007 固定源废气监测技术规范 [高清版].pdf VIP
- SH∕T 3046-2024 石油化工立式圆筒形钢制焊接储罐设计规范(2-1部分).pdf
- 2024年光伏发电理论知识考试题库附答案(含各题型).docx VIP
- 分数的初步认识张齐华课堂实录.pdf VIP
- 【招聘面试)平湖市教育局招聘学年中小学教师简章.pdf VIP
- 建筑工程制图与识图(高职)全套教学课件.pptx
- 建筑施工组织与管理-第3版-教学ppt课件-第5章-单位工程施工组织设计.pptx VIP
- 护理学基础期末试卷及答案 .pdf VIP
- PLC课程设计:电镀流水线.docx VIP
原创力文档


文档评论(0)