- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式数据挖掘LAMDA南京大学
分布式数据挖掘 张敏灵 陈兆乾 周志华 zml@ai.nju.edu.cn 南京大学软件新技术国家重点实验室 2002.10.11 提纲 简介 数据挖掘 分布式数据挖掘 研究现状 同构与异构 分布式数据挖掘算法 应用实例 进一步的工作 简介-数据挖掘 什么是数据挖掘? 数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。(From U. Fayyad et al.’s definition at KDD96) 巨量的:对于少量数据的分析不需要使用数据挖掘。 有效的:所获得的模式必须是正确的。 新颖的:对于已知知识的投资收益不大。 潜在有用的:所得的模式应能提供相关的决策支持。 最终可理解的:所得的模式是提交给决策制定者的。 数据挖掘的研究领域 数据挖掘是一门涉及机器学习、统计学、数据库、可视化技术、高性能计算等诸多方面的交叉学科。 数据挖掘-续 数据挖掘的应用范围 描述性规则发现(Characterization) 对比性规则发现(Discrimination) 关联规则发现(Association) 分类分析(Classification) 预测(回归)分析(Prediction) 聚类分析(Clustering) 异常分析(Outlier analysis) …… 简介-分布式数据挖掘 产生背景 各相关学科的飞速发展,各种网络尤其是Internet的广泛使用。 实际应用要求数据挖掘系统具有更好的可扩展性。 实例 研究某种疾病在某地的发病情况与气候的关系(疾病控制数据库+环境数据库) 金融组织间通过合作防止信用卡欺诈(数据共享) 大型跨国公司营销策略的制定(销售点分散,数据仓库构造十分耗时) 分布式数据挖掘正是在这一背景下产生的,它是数据挖掘技术与分布式计算的有机结合,主要用于分布式环境下的数据模式发现。 分布式数据挖掘-续 分布式数据挖掘的优点 出于对安全性、容错性、商业竞争以及法律约束等多方面因素的考虑,在许多情况下,将所有数据集中在一起进行分析往往是不可行的。分布式数据挖掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合。 在传统的数据挖掘系统中,如果能将数据合理地划分为若干个小模块,并由数据挖掘系统并行地处理,最后再将各个局部处理结果合成最终的输出模式,则可节省大量的时间和空间开销。 面临的问题 算法方面 数据预处理,实现各种数据挖掘算法。 结合系统所处的分布式计算环境。 系统方面 能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分布式平台上实现。 结点间负载平衡、减少同步与通讯开销、异构数据集成等 。 分布式数据挖掘-续 系统分类 根据结点间数据分布情况 同构:结点间数据的属性空间相同 异构:结点间数据具有不同的属性空间 按照数据模式的生成方式 集中式:先把数据集中于中心点,再生成全局数据模式(模型精度较高,但只适合于数据量较小的情况)。 局部式:先在各结点处生成局部数据模式,然后再将局部数据模式集中到中心结点生成全局数据模式(模型精度较低,但效率较高)。 数据重分布式 :首先将所有数据在各个结点间重新分布,然后再按照与局部式系统相同的方法生成数据模式。 按系统功能、通讯与合作方式等情况划分…… 研究现状 结点的同构与异构性 元学习(Meta-learning) CDM(Collective data mining) 分布式数据挖掘算法 分布式决策树生成 分布式关联规则发现 应用系统实例 结点的同构与异构性-元学习 同构结点间的数据挖掘 在同构分布式数据挖掘系统中,各个结点存储的数据都具有相同的属性空间。 为了实现同构结点的数据挖掘,研究者们先后提出了元学习 (meta-learning)、合作学习(coactive learning)等方法,其中元学习方法最具代表性。 元学习的概念是由Prodromidis等人于2000年首先提出的,该方法采用集成学习 (ensemble learning) 的方式来生成最终的全局预测模型(即元分类器)。该方法的基本思想是从已经获得的知识中再进行学习,从而得到最终的数据模式。 元学习-续 元学习的具体过程 元学习-续 基分类器输出的集成方式 投票(Voting): 绝对(相对)多数投票,加权投票。 决策(Arbitration): 指定特殊的“决策者”,当各基分类器的输出无法达成一致时,采用“决策者”的输出。 结合(Combining): 使用相关的先验与领域知识指导各输出的集成。 元学习的优点 在基学习阶段,各个结点可以自主地选择合适的学习算法来生成局部的基分类器。与此同时,各结点间不存在任何通讯与同
文档评论(0)