- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析—密度聚类
* DENCLUE(续) 高斯影响函数 一个对象x∈Fd的密度函数被定义为所有数据点的影响函数的和. 给定n个对象, D={x1,…,xn}? Fd, 在x上的密度函数定义如下 * DENCLUE(续) 例如, 根据高斯影响函数得出的密度函数是 根据密度函数, 我们能够定义该函数的梯度和密度吸引点(全局密度函数的局部最大) 一个点x是被一个密度吸引点 x*密度吸引的, 如果存在一组点x0, x1, …,xk, x0=x, xk=x*, 对0ik,xi-1的梯度是在xi的方向上 对一个连续的, 可微的影响函数, 用梯度指导的爬山算法能用来计算一组数据点的密度吸引点 * 密度吸引点 * 密度吸引点 * 中心定义的簇和任意形状的簇 密度吸引点 x*的中心定义的簇(center-defined cluster)是一个被x*密度吸引的子集C, 在x*的密度函数不小于一个阀值ξ; 否则(即如果它的密度函数值小于ξ), 它被认为是孤立点 一个任意形状的簇(arbitrary-shape cluster)是子集C的集合, 每一个是各自密度吸引子密度吸引的,有不小于阀值ξ的密度函数值, 从每个区域到另一个都存在一条路径P, 该路径上每个点的密度函数值都不小于ξ * 中心定义的簇和任意形状的簇 附加OPTICS(作业:Due date:5月16日) * * 数据挖掘 Topic3--聚类分析 密度聚类 * 基于密度的方法 基于密度聚类 (Density-Based Clustering) 主要特点: 发现任意形状的聚类 处理噪音 一遍扫描 需要密度参数作为终止条件 一些有趣的研究: DBSCAN: Ester, et al. (KDD’96) OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg D. Keim (KDD’98) CLIQUE: Agrawal, et al. (SIGMOD’98) * 基于密度的聚类: 背景I 两个参数: Eps: 邻域的最大半径 MinPts: 在 Eps-邻域中的最少点数 NEps(p): {q belongs to D | dist(p,q) = Eps} 直接密度可达的: 点 p 关于Eps, MinPts 是从点q直接密度可达的, 如果 1) p 属于 NEps(q) 2) 核心点条件: |NEps (q)| = MinPts p q MinPts = 5 Eps = 1 cm * 密度概念 核心对象 (Core object): 一个对象的?–邻域至少包含最小数目MinPts个对象, 不是核心点 ,但落在某个核心 点的 Eps 邻域内的对象称为边界点,不属于任何簇的对象为噪声. 对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。 Core Border Outlier Eps = 1cm MinPts = 5 由一个核心对象和其密度可达的所有对象构成一个聚类。 密度概念 直接密度可达的(Directly density reachable, DDR): 给定对象集合D, 如果p是在q的?–邻域内, 而q是核心对象, 我们说对象p是从对象q直接密度可达的(如果q是一个核心对象,p属于q的邻域,那么称p直接密度可达q。) 密度可达的(density reachable): 存在 一个从p到q的DDR对象链(如果存在一条链p1,p2,…..,pi,满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q) p q MinPts = 5 Eps = 1 cm * 基于密度的聚类: 背景II 密度可达: 点 p 关于Eps, MinPts 是从 q密度可达的, 如果 存在一个节点链 p1, …, pn, p1 = q, pn = p 使得 pi+1 是从pi直接密度可达的 密度相连的: 点 p关于 Eps, MinPts 与点 q是密度相连的, 如果 存在点 o 使得, p 和 q 都是关于Eps, MinPts 是从 o 密度可达的(如果存在o,o密度可达q和p,则称p和q是密度连通的) p q p1 p q o 由一个核心对象和其密度可达的所有对象构成一个聚类。 * 密度概念 Eg:?假设半径?Ε=3?,?MinPts=3?, 点?p?的? ? ?领域中有点?{m,p,p1,p2,o},?点?m?的? ? ?领域中有点?{m,q,p,m1,m2},?点?q的? ?领域中有?{q,m},?点?o?的? ? ?领域中有点?{o,p,s},?点?s?的? ? ?领域中有点?{o,s,s1}. 那
文档评论(0)