基于云计算数据挖掘系统架构探究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算数据挖掘系统架构探究

基于云计算数据挖掘系统架构探究【摘要】分析当前数据挖掘遇到的问题以及云计算的优势,构建了基于云计算的数据挖掘系统架构,并对其中的模块进行了描述。该框架有利于解决当前数据挖掘遇到的数据复杂程度高,数据量大等问题,能够显著提高数据挖掘的性能,高可信的基于云计算的数据挖掘系统和服务是未来的一个参考方向。 【关键词】云计算;数据挖掘;系统架构 1.引言 云计算的概念可以追溯到上个世纪Sun和Oracle提出的“网络就是计算机”。Google公司第一个把云计算作为一个概念正式提出——云计算就是把软件放在远程的服务器上,就像天边的云,在上网时才把它拿来用,平常就放在云上,有专人帮你管理[1]。 要对云计算做出一个确切的定义还很困难,目前只是达成了关于云计算基本特征的共识:第一,云计算是基于互联网的,是以浏览器为基础的;第二,数据存储和应用在都在云端,对用户透明,通常由第三方提供;第三,云计算强调服务,用户按需使用服务,根据使用多少付费[2][3]。 数据挖掘,也称知识发现,是指通过对大量数据进行处理分析,从中发现有用的规律和知识,从而加深对数据的理解,最终为决策提供服务的过程。对数据挖掘系统架构的研究,国内外主要基于数据库系统展开,提出了一系列基于数据库系统的数据挖掘系统结构框架。主要有以下几个部分:控制器、数据库接口、知识库、模式提取、知识评价。这些理论丰富了对数据文件系统架构的研究,推动了数据挖掘工作的开展。但在实际操作中普遍存在数据共享性差、扩展性低等问题[4]。 本文在对云计算及数据挖掘系统原理分析的基础上,提出了一种适应云计算的数据挖掘系统架构。一方面顺应了当前云计算发展的趋势,另一方面也能够在一定程度上解决数据挖掘在实际操作中遇到的问题。 2.研究背景 随着计算机技术、计算机网络特别是网格计算与云计算的发展,越来越多的数据分布式的存储在网络中,这些数据往往是大量的、复杂的、异构的、有噪声的,不容易被直接理解,其中蕴含的知识也是很难被发现的[5]。这就给数据挖掘系统的实现带来了三大难题:第一,这些数据的复杂程度很高,传统系统的技术能力难以达到要求;第二,传统的单机服务器所能提供的资源有限,很难满足要求,要借助分布式计算技术来实现计算;第三,常用算法不足,需要研究各种数据挖掘算法的并行化策略。 虚拟化是一个广义的术语,在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,把一个物理单元虚拟成多个逻辑单元,允许一个平台同时运行多个操作系统,一个物理单元可以运行多个应用。这样,有利于资源使用效率的提高,同时也使各种资源的管理更加方便。在NIST(National Institute of Standards and Technology,美国国家标准技术研究院)的一篇关于云计算概念的著名文档中,共定义了云的4种模式,它们分别是:公有云、私有云、混合云和行业云。云计算的目标是整合资源为客户服务,系统资源具备高性能的处理能力成为了必然要求[6][7]。 云计算能够提供动态资源池、虚拟化和高可用性的计算平台,可被用来开发高性能应用程序。对数据挖掘来说一方面大大降低了中小企业的数据处理成本,大企业某些数据的处理也不再依赖于大型高性能机。另一方面开发方便,屏蔽掉了底层,使得大规模处理数据能力提高,提高了数据处理效率[8]。 为了解决上述问题,人们提出了知识网格的概念,设计了一种分布式并行知识发现平台框架,框架充分利用了网格的计算能力,解决了传统数据挖掘框架计算能力不足的问题。但网格计算缺少商业化实现,并且需要用户通过编程来搭建底层架构,为系统的实现增加了难度。云计算是网格计算的升级,在近几年被提出,他具有超大规模、虚拟化、高伸缩性、高可靠性、通用性强、高扩展性、按需服务、易于使用等特点,可被用来搭建数据挖掘系统解决上述问题[9]。 3.基于云计算的数据挖掘系统架构 3.1 云计算平台 目前典型的云计算平台主要有Google的云计算平台,亚马逊的Amazon Web Services云计算平台,微软的Windows Azure云计算服务平台,IBM的蓝云计算平台等。一般情况下云计算平台被解释为如下的架构[10],图1所示。 最下的一层是IaaS,提供CPU,网络,存储等基础硬件的云服务。在这一层,主要提供给用户云存储服务。 再上一层是PaaS,提供类似于操作系统层次的服务与管理,比如Google GAE,你可以把自己写的Java应用(或者是Python)丢在Google的GAE里运行,GAE就像一个“云”操作系统,对你而言,不用关心你的程序在那台机器上运行。 最后一层是SaaS,就是我们所熟悉的软件即服务。SaaS强调按需使用付费。

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档