基于云计算的数据挖掘算法研究.docVIP

下载本文档

10
0
约2.37千字
约 4页
2017-05-06 发布于北京
举报
版权申诉

基于云计算的数据挖掘算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于云计算的数据挖掘算法研究.doc

基于云计算的数据挖掘算法研究摘要：随着网络信息技术的快速发展，面对网络中海量数据的挖掘存在着计算能力和存储空间两方面的限制，云计算技术可以有效地解决数据挖掘中出现的这些问题。本文介绍了云计算的关键技术，数据挖掘算法的分类以及云计算平台下的数据挖掘算法。关键词：云计算；数据挖掘；MapReduce 随着互联网信息技术的飞速发展，网络中的信息量、数据量越来越庞大，而且这些大量的信息数据并非简单整齐地排列在数据库中，它们具有动态、异构、分布广等特点，分析与处理这些数据的复杂度高，计算能力和存储空间方面不容易达到要求，给现有的数据挖掘带来了难题。云计算可以有效地解决这个问题，它是数据管理技术发展的必然趋势。 1 云计算及其关键技术云计算技术是近年来新兴起的共享型编程架构方法，它是由传统的网格计算和并行计算发展而来的，本质上是一种分布式并行计算技术，它所处理的数据并不是运行在本地机器上，而是存储在大规模服务器集群中。云计算技术的基本原理是通过远程服务访问大量分布式计算机组成的服务器集群，为互联网用户提供计算、存储、软硬件等服务，云计算系统可以按照用户的需求来分配资源并根据任务的优先级别访问计算机和存储系统，从而提高了对软硬件资源的利用率。 2 数据挖掘算法分类通过数据挖掘去发现知识的模式一般有两种，分别是统计分析型数据挖掘和预测决策型数据挖掘，两类挖掘模式都有各自经典的算法，并且从不同视角可以有以下不同的分类标准。 2.1 根据发现的知识种类分类根据数据挖掘发现的知识种类可将数据挖掘算法分为：数据总结、数据聚类、关联规则发现、序列模式发现、分类或预测模型知识发现、依赖关系或依赖模型发现、异常和趋势发现等。 2.2 根据挖掘的数据库种类分类根据挖掘的数据库种类可以分为基于各种数据库的挖掘算法：关系型数据库、面向对象数据库、空间数据库、文本数据库、多媒体数据库、异质数据库、遗留数据库等，以及基于数据仓库和基于Web的数据挖掘算法等。 2.3 根据挖掘方法采用的技术分类根据数据挖掘方法采用的技术可以将数据挖掘算法分为：统计分析、机器学习、模式识别、面向数据库或数据仓库技术、可视化技术和神经网络等。基于云计算的数据挖掘算法是在以上这些数据挖掘算法的基础上，采用云计算平台实现的数据挖掘算法。各挖掘算法对数据类型的要求是不同的，它不可能会适应所有数据类型的挖掘应用，所以我们在考虑不同数据类型的挖掘和具体的应用时，往往要结合多方面的因素来考虑算法的优缺点，以便能够采用多种算法实现有效的数据挖掘。 3 云计算平台下的数据挖掘算法 MapReduce是一种基于云计算的并行编程模型，它采用函数式的编程思想，将整个模型的计算过程分为映射过程Map和聚集处理过程Reduce。其中，Map阶段负责数据拆分，Reduce阶段负责数据归并。想要将经典的数据挖掘算法运行在云平台上，算法本身并不需要太大的变化，关键在于要将算法按照Map/Reduce框架合理的并行化，以及将并行化后的算法部署在云计算环境中，使得它可以加载云存储环境中的数据并进行运算。 3.1 基于Map/Reduce的Apriori算法执行过程 ⑴主进程基于（K-1）-项频繁项集遍历事务数据库，并生成K-项候选集，然后由Map/Reduce框架将此候选集分发到各个计算节点；⑵每个Map节点处理一个数据分块，并计算当前分配到数据分块的K-项候选集的支持数，此时Map/Reduce框架会在数据分块和Map节点之间持续调度，直到所有的分块数据处理完毕为止；⑶Reduce节点合并来自所有Map节点处理的数据，获得全局K-项候选集的支持数，并基于此支持数生成（K+1）-项频繁项集；⑷主进程通过遍历事务数据库来决定该任务是否已经完成。 3.2 基于Map/Reduce的K-Means算法执行过程 ⑴随机选择k个初始聚类中心，同时将这些初始聚类中心保存到OriginalCluster[]中，并将其进行数据分块，根据计算节点集群的情况，将此分块分配给各个计算节点；⑵在Map阶段计算最近距离和总数，同时在Map/Reduce框架下，把键值对的Key和Value分别对应到i和D[k]，其中D是事务数据集；⑶在Reduce阶段，由于i是Map/Reduce框架中的Key，这就保证了同一个Key的所有D[k]会分配到同一个Reduce进程中，在此Reduce进程计算新的聚类中心并保存到DestinationCluster[]中；⑷比较DestinationCluster[]和OriginalCluster[]两个值，如果两者的变化小于预先给定的阈值则聚类完成，否则，将DestinationCluster[]保存到OriginalCluster[]中，继续跳转到第（2）步执行。 3.3 基于Map/Reduc