浅谈如何基于云计算实现数据挖掘.docVIP

下载本文档

4
0
约1.81千字
约 5页
2017-08-11 发布于重庆
举报
版权申诉

浅谈如何基于云计算实现数据挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈如何基于云计算实现数据挖掘.doc

浅谈如何基于云计算实现数据挖掘随着电信行业的发展，电信运营商之间的竞争也愈发激烈。为了在竞争中获取胜利，正确的商业策略成为成功的关键环节。拥有海量用户数据信息，利用数据挖掘技术，可在计费数据、业务订购数据、网管数据等海量用户数据中发现商业，为市场的精准营销打下基础。基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈随着用户规模的扩大及对应用目标的多样需求，数据挖掘应用面临了新的挑战基于云计算技术的数据挖掘方法将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典Apriori算法MapReduce化后建立了一个基于Hadoop开源框架的并行数据挖掘平台,在集群中使用云计算技术处理大数据集,提高数据挖掘的效率基于云计算的并行数据挖掘工具平台包括三个层次，依下而上为分布式计算层，数据挖掘平台层以及业务应用层，具体来讲（1）分布式计算平台层：包括三部分功能：?分布式文件系统：提供分布式数据文件存储功能，提供具备高可靠性、高稳定性的存储平台；并行编程环境：提供基于Mapreduce的变成模型，及任务调度、任务执行、结果反馈等功能；及向平台提交作业功能；分布式系统管理：实现对平台的分布式系统管理。（2）数据挖掘平台层：包括五部分功能：工作流模块：实现对各个数据挖掘步骤及模块总控、调度功能；数据加载模块：将源数据从其他外设中倒入云计算平台的DFS系统；并行ETL模块：对原始数据进行预处理以得到挖掘数据；并行数据挖掘工具向云计算平台提交待执行的ETL任务，由云计算平台执行并反馈结果，存放于DSF；并行数据挖掘算法模块：实现满足业务需要的数据挖掘算法；并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务，由云计算平台执行并反馈结果，存放于DFS；并行结果展示模块：将并行数据挖掘算法的结果展示给用户；（3）业务应用层：实现电信类的业务应用，以供市场部门制定营销策略，具体业务应用如：客户分群，用户职业预测等。用户可以通过两种方式使用并行数据挖掘工具：基于用户GUI界面：用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示，来实现所需的应用。基于算法库API：用户可以编写应用系统，调用算法库中的API来实现应用功能。 .尽量减少每次写入磁盘的数据量；.尽量减少下一复制阶段网络传输的数据量。最后合并成了一个已分区且已排序的文件。为了减少网络传输的数据量，这里可以将数据压缩，只要将press.map.out设置为true就可以了。 4．将分区中的数据拷贝给相对应的reduce任务。其实map任务一直和其父TaskTracker保持联系，而TaskTracker又一直和JobTracker保持心跳。所以JobTracker中保存了整个集群中的宏观信息。只要reduce任务向JobTracker获取对应的map输出位置即分区中的数据与相关reduce对应。 Reduce端： 1．Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的。如果reduce端接受的数据量相当小，则直接存储在内存中（缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制，表示用作此用途的堆空间的百分比），如果数据量超过了该缓冲区大小的一定比例（由mapred.job.shuffle.merge.percent决定），则对数据合并后溢写到磁盘中。 2．随着溢写文件的增多，后台线程会将它们合并成一个更大的有序的文件，这样做是为了给后面的合并节省时间。其实不管在map端还是reduce端，MapReduce都是反复地执行排序，合并操作，现在终于明白了有些人为什么会说：排序是hadoop的灵魂。 3．合并的过程中会产生许多的中间文件（写入磁盘了），但MapReduce会让写入磁盘的数据尽可能地少，并且最后一次合并的结果并没有写入磁盘，而是直接输入到reduce函数。与传统数据挖掘相比，基于云计算的数据挖掘系统通过“云”中多个资源完成原先由一个节点承担的挖掘工作，使资源得到了充分利用，提高了数据挖掘过程的效率。基于云计算的数据挖掘工作意义重大，它不仅能够提高挖掘效率，还克服了网格环境的弊端，能够面向商业应用，更具有价值。参考文献：MapReduce工作原理图文详解