分布式数据挖掘的研究.docVIP

下载本文档

17
0
约3.06千字
约 7页
2018-10-13 发布于福建
举报
版权申诉

分布式数据挖掘的研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式数据挖掘的研究

分布式数据挖掘的研究　　摘要：分布式数据挖掘作为数据挖掘技术中的一种，能够对局部知识进行整合，从而获取全局知识，最终提高决策水平。鉴于此，本文对分布式数据挖掘概念进行简要阐述，并在此基础上探讨两个典型分布式数据挖掘系统及特点，旨在进一步提高分布式数据挖掘质量，最大限度地发挥其应用价值。　　关键词：分布式；数据挖掘；应用价值　　中图分类号：TP311.12 文献标识码：A 文章编号：1671-2064（2018）08-0035-02 　　未来计算机技术与通信技术的快速发展，相继地拓展了移动网、互联网、广电网等网络及其衍生业务，从而导致大量分布式数据的形成，这些数据能够为决策提供相应的依据。传统集中式的数据挖掘技术因其受到网络平台的兼容性与易购性等影响，使其难以适应分布式计算环境，由此而使得分布式的数据挖掘技术便运用而生。但由于分布式的数据挖掘技术应用尚不广泛，大部分并不了解其系统及应用状况，因此需要对分布式数据挖掘技术进行如下探讨，以最大限度地提高分布式数据挖掘的质量。　　1 分布式数据挖掘概念　　1.1 分布式数据挖掘定义　　分布式数据网挖掘的定义为基于网络空间的分布式计算环境的数据挖掘，此外人们还广泛地认为分布式的数据挖掘主要是基于分布式计算方式挖掘网络空间内的分布式数据，并且通过整合局部知识的方式来获取全局知识，以此来为决策提供安全可靠的依据。数据挖掘质量的高低，主要取决于局部知识整合方法和局部知识质量，在局部知识质量较高情况下必然可以保证数据挖掘质量。　　1.2 分布式数据挖掘框架　　挖掘原则为“全局分布、局部集中”，主要是通过站点间纯粹独立挖掘方式，但并不都是独立挖掘，数据挖掘可以利用某些站点进行。具体框架图如图1所示。　　2 两个典型分布式数据挖掘系统分析　　2.1 PADMA系统　　PADMA体系主要由用户接口、数据挖掘代理以及协调器三个部分构成。其中用户接口的主要功能是确保用户与挖掘系统之间的信息交换，协调器在进行分布式数据挖掘时是接受用户标准SQL表示的查询，并且通过广播的方式对各个代理进行通知。各个代理在此基础上提供其提取到的与该查询相关信息，最后通过协调器汇集起相关信息，并将相关信息提供给用户数据挖掘代理模块，使其用于数据访问，并在数据访问中获得有效的高级信息。而数据挖掘代理主要是对某个挖掘活动时指定予以完成，并通过协调器使数据挖掘代理对信息进行共享。协调器在PADMA系统中的作用在于对各个代理进行协调，然后再将其挖掘到的有效信息向用?艚涌谔峁?，最终便能够实现从用户到代理之间的反馈工作。除此之外，PADMA在实际应用中包括并行数据分析、并行数据查询和访问、交互式聚类数据可视化三个功能。　　2.2 CDM系统　　CDM系统对学习新方法进行了归纳，主要在分布式垂直划分特征空间中进行。其在实际应用中的基本思想按照分布式的方式对待学习函数采用一组较为合适的基函数进行表示。该系统在实际应用中能够允许各个数据点选择不同的学习算法，从而便能够生成整个数据集的全局分布式模式，最后分解整个建模问题。　　一般来说，CDM为两层体系结构，但其在实际应用的过程中能够扩充到多层。在建立该体系结构的过程中是将归纳学习分解成局部与非局部的基函数求解基础上，因而系统便为每个数据点提供了由局部观测变量的定义，然后将其用于计算基函数与局部分析等相关程序。最终通过各个数据点选择通信方式、学习算法以及处理方法，能够为每个程序分配一个自治度，此项过程便为软件数据挖掘代理。通常来说，各个软件代理在实际应用中属于独立无关的状态，但如有必要也会进行相互协作。　　3 分布式数据挖掘系统特点　　3.1 便于通讯工作　　在本系统运行的过程中，有效的分布式挖掘系统能够在各个站点之间进行通讯，通讯工作的完成是基于较高层次。并且该分布式数据挖掘系统中所具有的通讯功，能够对原始数据、挖掘请求及其参数、挖掘知识等进行方便处理，甚至可以传送挖掘算法本身。　　3.2 实现集中控制　　为了能够对分布式的数据挖掘系统进行更为方便地实现，就必须确保用于集中控制的站点。为了能够获得全局知识，在实际运行中需要所有的站点能够进行大量广播，此种方式会增加其开销与难度。除此之外，在一部分分布式的数据挖掘算法的过程中还需要对全局范围内进行决策，在引入全局控制站点后便能很好地支持系统的灵活性与可扩展性。　　3.3 挖掘系统灵活　　分布式数据挖掘系统在实际应用中能够对用户的各种数据挖掘要求进行灵活地响应，例如能够挖掘不同位置与不同大小的数据库等。　　3.4 实现移动挖掘　　在一部分数据挖掘算法的过程中，需要挖掘算法顺序访问各个站点中的数据集，这就要求在采用分布式的数据挖掘系统中必须能够支持挖掘算法