聚类(博士生上课)剖析.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 什么是聚类分析 聚类分析中的数据类型 主要聚类方法的分类 划分方法 层次方法 基于密度的方法 基于网格的方法 基于模型的方法 孤立点分析 小结 Chapter 8. Cluster Analysis 基于密度的方法 DBSCAN OPTICS DENCLUE 基于网格的方法 STING WaveCluster CLIQUE 基于模型的方法 统计学方法 神经网络方法 孤立点分析 小结 DBSCAN(基于高密度连接区域的密度聚类方法) Density-Based Spatial Clustering of Applications with Noise A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise Martin Ester,KDD-96 定义 给定半径?和MinPts ,每个聚类中的对象的?-邻域中至少包含MinPts个对象 给定对象集合D ? 邻域N?(q): 给定对象半径?内的区域,即{q ? D | dist(p,q) = ?} 核心对象:q ? D,|N?(q)|?MinPts 对象p从对象q出发是直接密度可达:p?N?(q)且|N?(q)| ? MinPts 定义(续) 对象p从对象q关于?和MinPts密度可达:存在对象链p1,p2,…,pn,p1=q,pn=p,pi?D,pi+1是从pi关于?和MinPts直接密度可达的(非对称) 对象p和q关于?和MinPts密度相连:存在对象o ?D,使得对象p和q 从o关于?和MinPts密度可达(对称) DBSCAN基本思想 簇:基于密度可达性的最大的密度相连对象的集合 噪音:不在任何簇中的对象 边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达 DBSCAN算法 1)任意选择没有加簇标签的点 p 2)找到从p关于? and MinPts 密度可达的所有点 3)如果|N?(q)|?MinPts ,则p是核心对象,形成一个新的簇,给簇内所有的对象点加簇标签 4)如果p 是边界点, 则处理数据库的下一点 5)重复上述过程,直到所有的点处理完毕 不足和改进 只能发现密度相仿的簇 对用户定义的参数( ? and MinPts )敏感 计算复杂度为O(n2) 采用R-树等空间索引技术,计算复杂度为o(nlogn) 图示 A 和 B被认为是噪音 C1和C2两个簇合并了 OPTICS OPTICS:Ordering Points To Identify the Clustering Structure(通过对象排序识别聚类结构) Mihael Ankerst .ACM SIGMOD’99 Int.Conf,1999 对DBSCAN的改进 对输入参数不敏感 可以发现不同密度的簇 用图表等可视化的方式来表示 按可达距离排序 可自动开采,也可与用户交互 引入两个新概念 P 为对象,数据集D,?为距离值,N?(q)为邻域,MinPts P 的核心距离:使得P成为核心对象的最小? 若|( N?(q)|? MinPts,即P不是核心对象,则无定义,即无穷大 否则,定义为使P成为核心对象的?的最小值 P 关于对象q的可达距离:p的核心距离和p,q的欧几里得距离之间的较大值 若|N?(q)|? MinPts,即P不是核心对象,则无定义 否则,定义为Max(核心距离,|(p,q)|) 图示 核心距离 可达距离 OPTICS算法 1.计算数据点p的核心距离和可达距离 2.如果p为核心对象,找到所有它的关于? 和MinPts的直接密度可达点,按可达距离排序并插入队列。 3.处理下一个数据点 寻找簇 不同密度、形状、大小的簇 参数的影响 ?减小,则可达距离为无穷大的点增多; MinPts减小,核心对象增多,图象更尖锐 确定参数 ? MinPts 经验值:10-20 DENCLUE DENsity-based CLUstering An Efficient Application to Clustering in Large Multimedia Databases with Noise(在带噪音的大型多维数据库上的高效的聚类方法) Alexander Hinnebug,1998 数学基础 1.影响函数描述了一个数据点在邻域的影响 2.数据空间的整体密度函数为所有数据点的影响函数之和 3.聚类可以通过确定密度吸引点来得到,密度吸引点为密度函数的局部最大 影响函数 假设x 和y是特征空间中的对象。数据对象y对x的影响函数为 原则上影响函数可以是任意的函数,它由邻

文档评论(0)

美洲行 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档