基于云计算数据处理及数据挖掘方法.docVIP

下载本文档

3
0
约3.8千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于云计算数据处理及数据挖掘方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于云计算数据处理及数据挖掘方法

基于云计算数据处理及数据挖掘方法　　摘要：介绍云计算的概念及应用，探讨传统数据挖掘方法――分类和聚集方法的基本原理、特点、优缺点及应用范围。根据云计算的并行分布式计算特点，提出与之适应的数据处理方法。借助Google云计算中的分布式数据处理平台，评价云计算下复杂数据形式的数据挖掘方法。　　关键词：云计算；并行分布式数据挖掘；Map Reduce数据处理　　中图分类号：TP391 　　文献标识码：A 文章编号：1672-7800（2015）003-0148-02 　　0 引言　　近年来，云计算作为一种新兴技术正以前所未有的速度在人们的生活中普及。随着云技术的出现，大数据的概念也随即提出。在数据爆炸式增长的今天，如何从蕴含大量数据或资源的“云”中挖掘出可用的知识，成为数据挖掘领域的一大挑战。本文列举几种常用的传统数据挖掘方法，即分类和聚集分析，提出适应云计算环境下的数据挖掘算法，并进行分析与评价。　　1 云计算　　关于云计算尚没有明确统一的定义。清华大学张德丰[2]认为云计算是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需提供给计算机和其它设备。“云”其实是网络、互联网的另一种说法。云计算是一种利用互联网，通过虚拟化技术向用户提供软硬件资源和信息共享的服务模式。云计算的核心思想是将大量用网络连接的计算资源进行统一管理和调度，构成一个计算资源池，按需向用户提供服务。按服务类型划分，云计算大致可分为3大类： IaaS、PaaS、SaaS。当今企业越来越重视从数据中发现商机，云计算将为用户提供数据深度分析与挖掘功能，本文称其为 DaaS（数据即服务）。本文从提供服务的角度，认为云计算包含3个层次和 4 个服务模式，如图 1 所示。　　云计算拥有的超大规模计算能力、海量数据资源及其高可靠性特征，为数据挖掘提供了良好基础。　　2 传统数据挖掘方法　　2.1 数据挖掘基本概念　　随着数据库技术的成熟和数据应用的普及，数据量正在以指数速度增长。数据和信息之间的鸿沟客观上需要系统的数据挖掘工具，将数据转换成有用的知识。从数据库中发现知识（KDD）及其核心技术――数据采掘（DM）便应运而生了。　　采用数据挖掘工具进行数据分析，可以发现重要的数据模式，对商务决策、知识库、科学和医学研究意义重大。数据挖掘（Data Mining，简称DM）是从海量数据中发现有趣模式的过程[1]。DM 通常又称数据库中的知识发现（ Knowledge Discovery in Databases， KDD），是自动的提取模式，代表隐藏在大型数据库、数据仓库或其它大量信息存储中的知识。数据挖掘是数据库研究、开发和应用中最活跃的分支之一。一般来说，数据挖掘可以在任何类型的信息存储上进行，包括关系数据库、数据仓库、事务数据库、高级数据库系统、展开文件和WWW。　　2.2 常用数据挖掘方法　　2.2.1 分类　　分类是一项重要的数据分析技术，用于提取并描述重要数据类，可以预测数据趋势。传统的分类算法大部分是内存驻留算法，假定的数量很小[1]。数据分类通常分为两个阶段，即学习阶段（构建分类模型）和分类阶段（使用模型预测给定数据的类标号）。分类是一种监督学习，它与无监督学习或聚类不同，利用分类规则，可以更好地对未来的数据元祖进行分类，也可使数据内容得到更好的理解，并且提供数据压缩表示。常用分类方法如下：　　（1）判定树归纳分类。判定树是一个类似于流程图的树结构，它从一组无序、无规则的事例中推理出判定树表示形式的分类规则，其中每个内部节点表示一个属性上的测试，分支用这个属性的所有可能值标记，每个分支代表一个测试输出，而每个树叶节点代表所要学习划分的类或类分布。　　（2）朴素贝叶斯分类。朴素贝叶斯分类可以与判定树和神经网络分类算法相媲美。其步骤如下：①建立模型，描述预先的数据集或概念集；②指导学习，即假定每个样本都有一个预先定义的类。朴素贝叶斯模型（NBC）通过对象的先验概率，计算出其后验概率（即对象属于哪一类的概率），选择具有最大后验概率的类作为该对象的所属类。设x={a1，a2，a……am}为一个待分类项，而每一个a 为x的一个特征属性，有类别集合c={y1，y2，y3……yn}，计算p（y1/x）， p（y2/x）， p（y3/x）， p（y4/x）， ……p（yn/x）各个条件概率。如果P（yk/x）=max{ p（y1/x）， p（y2/x）， p（y3/x）， p（y4/x）， ……p（yn/x）}则属于x中某个类。P（yi/x）=p（x/yi） p（yi）/p（x），朴素贝叶斯分类在应用于大型数据库时，已表现出高准确率与高速度。贝叶斯网络可以处理不完整和带有噪音的数据集，