- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
EXCHANGEOF
EXPERJENCE经验交流
Hadoop平台数据挖掘技术研究
◆黄铭陈明
摘要:随着信息时代的不断发展,互联网产生的数据以爆炸性的态势不断增长。传统的
单片机计算机体系结构在如此大量的数据面前显得力不从心,云计算为大型数据的处理提供
了新的解决方案。Hadoop是Apache基金会的开源项目之一,集Mapreduce、HDFs、HBase、
pig等子项目于一身,展示出了卓越的计算、处理与调度能力。
关键词:Hadoop平台;数据挖掘;云计算
高新技术产业发展的大背景下,计算机行业的竞争也是越来
一、基于Had00p的云计算平台
越激烈,而想要在日益激烈的市场竞争中争得一席之地,必
1.Hadoop云计算平台。Hadoop是apache提供的一个须把握市场规律,掌握市场技巧,要是铲平有销路,则必须
便于编写和运行处理大数据的软件平台,HDFs是HadooD
以客户需求为导向,从客户需求出发,设计出满足客户需求
DistributedFile
System的缩写,即Hapoop分布式文件系统,的产品。因此在设计平台的时候必须先进行用户需求分析,
所谓的分布式计算存储的技术支持。云计算的发展以商业为 在真正了解了客户需求的基础上,再进行相关软件的开发。
主导,它的核心与其说是计算不如说它是一种服务,这种服 最后,进行Hadoop平台具体的设计。就总体而言,在设
务大规模、虚拟化、通用性的特点使其在基础设施即服务、 计基于Hadoop平台的数据挖掘系统的时候可以采用自上而
平台即服务、软件即服务上大量应用。 下分层的思维模式,利用上层的系统来调用下层的系统。并
2.云计算。云是一个强大的组合,将计算、网络、存 且依前段所言,要根据用户的具体需求来分层设计,且设计
储、管理解决方案以业务应用全部包括其中,完善了新一代 的各层之间的相互独立的,通过调用来实现数据间的传输与
的IT和消费服务,且不影响安全性和功能,Hadoop的多个组
通信,之所以采用这种模式是因为这种模式具有很好的扩展
成子项目HDFs分布式文件系统、MapReduce分布式编程框性。
架、HBbse分布式数据库等等,这些子项目以HDFs为基础, 在设计基于Hadoop平台的数据挖掘系统时,主要包
独立解决问题又相辅相成。 括:交互层、业务应用层、数据挖掘层三个部分,具体来
讲:交互层主要的职责是完成用户与系统之间信息的传递,
二、Had00p平台数据挖掘技术的实现
可以称为其交流的窗口,交互层能够提供清晰形象的图像,
Hadoop平台采用并行计算的方法、分布式存储结构来
利用直观的图像信息将内容呈献给用户。业务应用层主要进
组成数据计算系统,并且利用成本低廉的PC机组成一个容量 行调度、处理、控制用户层的业务,通过调用数据挖掘算法
大的集群,在此基础上组成一个能够储存、处理大量数据的 层来进行用户层业务的处理。数据挖掘层作为整个系统的核
分布式的计算系统,从而实现大量数据的高效挖掘,最终实 心,利用并行的方式完成其任务,最后把最终结果返回到业
现计算机的云计算。另外, Hadoop平台采用开放式的源代务应用层中。
码,以方便系统的再次开发,从而能够根据更多人的需求,
文档评论(0)