- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
minpts直接密度可达的 - read
K-modes(补充) A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining,Zhexue Huang,1997 K-模,对k-平均方法的改进,k-原型的简化 处理分类属性 分类属性:A1,A2,…,Am为空间?的m个属性, DOM(Ai)为属性的值域,如果DOM(Ai) 是确定和无序的,即对任何a,b ?A,只有a=b或者a?b,则称Ai为分类属性 如果A1,A2,…,Am都为分类属性,则属性?为分类空间 相异度度量 设X,Y为m个分类属性的分类对象,它们之间的相异度定义为: d(x,y)对一个属性上的每个类赋予了相同的权重 考虑属性出现的频率 对出现频率较低的类给予了更大的权重 nxj为数据集中属性j上的值为xj的对象数 数据集的模(mode) 设X为一组分类对象,分类属性包括A1,A2,…,AM X={X1,X2,…Xn}的模: 向量Q=[q1,q2,…,qm],使得 最小 定理:函数D(Q,X)为最小,当且仅当 对所有的j=1,…,m有 Nck,j是在属性上Ai值为ck,j的对象数 K模算法 1.为每个簇选择初始模,共k个 2.根据d,把对象分配给最近的簇。根据定理重新计算簇的模 3.计算每个对象对当前模的相异度,重新分配对象到簇 4.重复上述2,3过程,直到簇中的对象不再发生变化 聚类分析 什么是聚类分析 聚类分析中的数据类型 主要聚类方法的分类 划分方法 层次方法 基于密度的方法 基于网格的方法 基于模型的方法 孤立点分析 小结 Chapter 8. Cluster Analysis 基于密度的方法 DBSCAN OPTICS DENCLUE 基于网格的方法 STING WaveCluster CLIQUE 基于模型的方法 统计学方法 神经网络方法 孤立点分析 小结 DBSCAN(基于高密度连接区域的密度聚类方法) Density-Based Spatial Clustering of Applications with Noise A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise Martin Ester,KDD-96 定义 给定半径?和MinPts ,每个聚类中的对象的?-邻域中至少包含MinPts个对象 给定对象集合D ? 邻域N?(q): 给定对象半径?内的区域,即{q ? D | dist(p,q) = ?} 核心对象:q ? D,|N?(q)|?MinPts 对象p从对象q出发是直接密度可达:p?N?(q)且|N?(q)| ? MinPts 定义(续) 对象p从对象q关于?和MinPts密度可达:存在对象链p1,p2,…,pn,p1=q,pn=p,pi?D,pi+1是从pi关于?和MinPts直接密度可达的(非对称) 对象p和q关于?和MinPts密度相连:存在对象o ?D,使得对象p和q 从o关于?和MinPts密度可达(对称) DBSCAN基本思想 簇:基于密度可达性的最大的密度相连对象的集合 噪音:不在任何簇中的对象 边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达 DBSCAN算法 1)任意选择没有加簇标签的点 p 2)找到从p关于? and MinPts 密度可达的所有点 3)如果|N?(q)|?MinPts ,则p是核心对象,形成一个新的簇,给簇内所有的对象点加簇标签 4)如果p 是边界点, 则处理数据库的下一点 5)重复上述过程,直到所有的点处理完毕 不足和改进 只能发现密度相仿的簇 对用户定义的参数( ? and MinPts )敏感 计算复杂度为O(n2) 采用R-树等空间索引技术,计算复杂度为o(nlogn) 图示 A 和 B被认为是噪音 C1和C2两个簇合并了 OPTICS OPTICS:Ordering Points To Identify the Clustering Structure(通过对象排序识别聚类结构) Mihael Ankerst .ACM SIGMOD’99 Int.Conf,1999 对DBSCAN的改进 对输入参数不敏感 可以发现不同密度的簇 用图表等可视化的方式来表示 按可达距离排序 可自动开采,也可与用户交互 引入两个新概念 P 为对象,数据集D,?为距离值,N?(q)为邻域,MinPts P 的核心距离:使得P成为核心对象的最小? 若|( N?(q)|? M
文档评论(0)