网站大量收购闲置独家精品文档,联系QQ:2885784924

数据仓库与数据挖掘原理及应用(第二版) 作者 王丽珍 周丽华 陈红梅 第7章.ppt

数据仓库与数据挖掘原理及应用(第二版) 作者 王丽珍 周丽华 陈红梅 第7章.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 聚类分析 第七章 目录 7.1 概述 7.2 K均值算法 7.3 BIRCH算法 7.4 DBSCAN算法 7.5 STING算法 7.6 EM算法 7.7 本章小结 定理7.1 给定ε,MinPts及数据对象集合D,满足如下条件的D的非空子集O是关于ε和MinPts的簇: O={o|p,o∈D, ,o是从p出发关于ε和MinPts密度可达的} 证明: ① 连通性。 对于任意的r , t∈O,因为r,t都是从p出发关于ε和 MinPts密度可达的,所以,r与t是关于ε和MinPts密度相连的。 7.4.1 相关概念(6) ② 极大性。 对于任意的r、t,因为 如果r∈O,则r是从p出发关于ε和MinPts密度可达的。 如果t是从r出发关于ε和MinPts密度可达的,则t是从p出 发关于ε和MinPts密度可达的。 所以 t∈O。 7.4.1 相关概念(7) 定理7.2 给定ε,MinPts及数据对象集合D,某个关于ε和MinPts的簇C等于满足如下条件的D的非空子集O: O={o| p∈C , ,o∈D , o是从p出发关于ε和MinPts密度可达的} 证明: ① C ? O 对于任意q∈C,因为p∈C,所以,根据簇的连通性,p与q是关于ε和MinPts密度相连的,即存在r满足p与q都是从r出发关于ε和MinPts密度可达的。 又因为|N?(p)|?Minpts,所以,r是从p出发关于ε和MinPts密度可达的,q是从p出发关于ε和MinPts密度可达的,即q∈O 7.4.1 相关概念(8) ② O ? C 对于任意q∈O,因为q是从p出发关于ε和MinPts密度可达的。又因为 p∈C 所以,根据簇的极大性,q∈C。 定理7.1和7.2可以证实DBSCAN聚类算法的正确性。 7.4.1 相关概念(9) 基本思想是:首先,选取一个未标记类别的核心对象,并创建一个新簇;然后,寻找所有从该核心对象出发关于ε和MinPts密度可达的对象,并标记为该簇。重复这个过程,直至处理完所有对象,即没有未标记簇的核心对象。 算法:DBSCAN(D,ε,MinPts) 输入:数据对象集合D,邻域半径ε,最小对象数目MinPts 输出:关于ε和MinPts的所有簇 7.4.2 DBSCAN算法(1) 步骤: (1) 初始化类别标记Cid; (2) for D中的每个数据对象p (2.1) if p是未标记类别的数据对象 then (2.1.1)if p不是核心对象 then 将p标记为噪声 (2.1.2)else 将p标记为Cid 将所有从p出发关于ε和MinPts直接密度可达的标记为噪声的数据对象标记为Cid 将所有从p出发关于ε和MinPts直接密度可达的未标记的数据对象标记为Cid,并放入队列Q中。 //寻找所有从p出发关于ε和MinPts密度可达的数据对象 7.4.2 DBSCAN算法(2) while Q不空 从Q中取出队头数据对象o if o是核心对象 then 将所有从o出发关于ε和MinPts直接密度可达的标记为噪声的数据对象标记为Cid 将所有从o出发关于ε和MinPts直接密度可达的未标记的数据对象标记为Cid,并放入队列Q中; 改变类别标记Cid; 7.4.2 DBSCAN算法(3) 不使用索引时,DBSCAN的计算复杂度是O(n2);使用索引时,其计算复杂度为O(nlogn),其中n是数据集D中的对象数目。DBSCAN的最大优点是能在具有噪声的空间数据库中发现任意形状的簇,对噪声数据不敏感,但是它所使用的参数ε和MinPts是两个全局参数,这种全局密度参数往往不能刻画高维数据内在的聚类结构,因为真实的高维数据集常常具有非常倾斜的分布。同时,ε和MinPts的值需要用户输入,这也是一个比较困难的问题。 7.4.2 DBSCAN算法(4) 7.5 STING算法 7.5.1 层次结构 7.5.2 参数产生 7.5.3 查询类型 7.5.4 相关单元和非相关单元 7.5.5 STING算法 STING在划分矩形单元时,按照不同级别的分辨率进行多层划分。第一层是最高层,对应整个空间区域。每个高层单元划分为多个低一层的单元。

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档