- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算的数据挖掘之综述研究.doc
基于云计算的数据挖掘之综述研究
【摘 要】本文针对现下一种新兴的云计算技术,分析当前数据挖掘遇到的问题以及云计算的优势,基于云计算进行海量数据挖掘成为一种解决传统集中式数据挖掘不适应海量数据不断增长的高效、可信方法。本文先对云计算进行简单介绍,然后对基于云计算的数据挖掘应用进行详细阐述与分析,最后介绍基于云计算的数据挖掘应用平台的构建。
【关键词】云计算;数据挖掘;研究
The Summry of Data Mining Research Based Cloud Computing
GUAN Wen-bo1 LI Lei2
(1.School of Software Engineering,Tongji University,Shanghai, 200092, China;
2.School of Software Nanyang Institute of Technology,Nanyang Henan, 473000, China)
【Abstract】In this paper, holds many lessons for an emerging cloud computing technology to analyze the current data mining problems encountered and the advantages of cloud computing, cloud-based computing for massive data mining to become a solution to the traditional centralized data mining suited to the growing amounts of data efficiently, credible way. This article first briefly introduces the cloud, and the cloud-based data mining applications described and analyzed in detail, and finally introduces cloud-based data mining applications Platform.
【Key words】Cloud computing; Data mining;Research
0 前言
云计算的概念可以追溯到上个世纪Sun和Oracle提出的“网络就是计算机”。Google公司第一个把云计算作为一个概念正式提出――云计算就是把软件放在远程的服务器上,就像天边的云,在上网时才把它拿来用,平常就放在云上,有专人帮你管理[1]。
要对云计算做出一个确切的定义还很困难,目前只是达成了关于云计算基本特征的共识:第一,云计算是基于互联网的,是以浏览器为基础的;第二,数据存储和应用在都在云端,对用户透明,通常由第三方提供;第三,云计算强调服务,用户按需使用服务,根据使用多少付费[2-3]。
数据挖掘,也称知识发现,是指通过对大量数据进行处理分析,从中发现有用规律和知识,从而加深对数据的理解,最终为决策提供服务的过程。对数据挖掘系统架构的研究,国内外主要基于数据库系统展开,提出了一系列基于数据库系统的数据挖掘系统结构框架。主要有以下几个部分:控制器、数据库接口、知识库、模式提取、知识评价。这些理论丰富了对数据文件系统架构的研究,推动了数据挖掘工作的开展。但在实际操作中普遍存在数据共享性差、扩展性低等问题[4]。
本文在对云计算及数据挖掘系统原理分析的基础上,提出了一种适应云计算的数据挖掘系统架构。一方面顺应了当前云计算发展的趋势,另一方面也能够在一定程度上解决数据挖掘在实际操作中遇到的问题。
1 研究背景
随着计算机技术、计算机网络特别是网格计算与云计算的发展,越来越多的数据分布式的存储在网络中,这些数据往往是大量的、复杂的、异构的、有噪声的,不容易被直接理解,其中蕴含的知识也是很难被发现的[5]。这就给数据挖掘系统的实现带来了三大难题:第一,这些数据的复杂程度很高,传统系统的技术能力难以达到要求;第二,传统的单机服务器所能提供的资源有限,很难满足要求,要借助分布式计算技术来实现计算;第三,常用算法不足,需要研究各种数据挖掘算法的并行化策略。
虚拟化是一个广义的术语,在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,把一个物理单元虚拟成多个逻辑单元,允许一个平台同时运行多个操作系统,一个物理单元可以运行多个应用。这样,有利于资源使用效率的提高,同时也
文档评论(0)