- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算分布式数据挖掘算法研究
基于云计算分布式数据挖掘算法研究
摘 要: 数据挖掘是对海量数据进行分析和总结,得到有用信息的知识发现的过程。作为数据挖掘的一个分支,成熟的分布式数据挖掘已经应用到社会生活许多领域。对海量数据的存储和挖掘,云计算提供廉价和有效的解决方案,能解决分布式数据挖掘的瓶颈。因此,基于云计算平台的分布式数据挖掘是目前的热门研究。给出数据挖掘算法的分类,重点针对不同的数据类型,给出适用的基于云计算的分布式挖掘算法。
关键词: 云计算;数据挖掘;分布式
中图分类号:TP393.08 文献标识码:A 文章编号:1671-7597(2012)0220104-01
0 引言
信息技术的出现导致各种格式(如记录、文档、图像、声音、航空数据等)的海量数据存储在数据仓库中,如何从海量的数据中找到有价值的信息是当前的一个热点,对人类社会具有非常重要的社会价值和经济利益,数据挖掘就是实现这一功能的技术。数据挖掘从早期的单独算法对单系统、单机器进行对向量数据的挖掘,到与数据库相结合,支持多个算法的挖掘,以及和预测模型相集成,支持Web数据、半结构化的数据的网络化计算,发展到了分布式数据挖掘。分布式数据挖掘(Distributed Data Mining,DDM)作为一种成熟的挖掘技术已被广泛应用到各个领域,是数据挖掘领域的热点之一。“分布”的含义包括数据的分布和计算的分布两层含义。在分布式计算环境中,用户、数据、计算硬件、数据挖掘软件均可能在地域上分散。分布式数据挖掘旨在解决分散的同构和异构数据库的挖掘问题;同时,数据的分布性带来处理的并行性,则可能解决海量数据挖掘的可伸缩性(Scalability)瓶颈[1]。
随着科学技术的飞速发展,人类社会信息正以每18个月产生的数量等于过去几千年的总和的速度不断增加[1]。尤其是随着物联网产业的迅猛发展,越来越多的应用终端被接入网络,随之带来的庞大的数据量极大的增加了人们从海量数据中发现有用知识的难度。物联网产生的数据具有数量大,高度分散的特点,传统的分布式数据挖掘已经无法解决现有数据处理瓶颈问题[2]。作为新兴商业计算模型的云计算,为分布式数据挖掘提供了许多新的解决思路和方案。云计算是数据管理技术发展的必然趋势,能对分布在大量计算机上存储的资源池上进行操作,使基于云计算平台的应用能根据需要获取所需的存储空间,软件服务和计算能力。目前,IT巨头正在相继开发云计算平台、云计算终端和服务器。
1 数据挖掘算法分类
数据挖掘算法有很多,从不同的视角,数据挖掘技算法可以有根据发现知识的种类分类、根据挖掘的数据库的种类分类和根据采用的技术分类的几种常见分类标准[3]。
1)根据发现的知识种类,数据挖掘算法有:关联规则发现、分类或预测模型知识发现、数据总结、数据聚类、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等多种算法。
2)根据挖掘的数据库的种类,数据挖掘有基于各种数据库的挖掘算法:关系型、面向对象数据库、空间数据库、时态数据库、文本数据源、交易型、多媒体数据库、异质数据库、遗留数据库等,已经基于数据仓库、基于Web的挖掘算法等。
3)根据挖掘方法采用的技术,可分为:统计分析、机器学习方法、模式识别、面向数据库或数据仓库的技术、可视化技术和神经网络等挖掘算法。其中,常用的统计方法可细分为回归分析、判别分析、聚类分析(系统聚类、动态聚类等)、探索性分析等。机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
基于云计算分布式数据挖掘算法是在这些数据挖掘算法的基础上,采用云计算平台实现的数据挖掘算法,也可以采用这样的分类标准进行分类。然而,由于有各式各样的数据存在,每一种挖掘算法都应用到具体的数据类型上,对数据类型的要求是有限制的,一种算法不可能会适应所有数据类型的挖掘应用。因此,在考虑不同数据类型的挖掘和具体的应用时,如何选择合适的挖掘算法是非常重要的。当然,在实际应用中,往往结合多方面的因素,考虑算法的优缺点,采用多种算法实现有效的挖掘。
2 不同数据类型对应的挖掘算法
随着信息量的剧增,数据的种类也不断增多。从粗粒度来看,数据挖掘常应用到如下几种数据形式:文本型(Textual)、关系型(Relational)、
事务型(Transactional)、面向对象型(Objected-Oriented)、主动型(Active)、空间型(Spatial)、时间型(Temporal)、多媒体(Multi-Media)、异质(Heterogeneous)数据库和遗留(Legacy)系统等。从挖掘的数据特性出发,专家和相关研究人员将数
原创力文档


文档评论(0)