minpts直接密度可达的 - read.pptVIP

下载本文档

102
0
约8.78千字
约 74页
2017-09-10 发布于天津
举报
版权申诉

minpts直接密度可达的 - read.ppt

1、本文档共74页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

minpts直接密度可达的 - read

K-modes(补充） A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining,Zhexue Huang,1997 K-模，对k-平均方法的改进，k-原型的简化处理分类属性分类属性：A1,A2,…,Am为空间?的m个属性， DOM(Ai)为属性的值域，如果DOM(Ai) 是确定和无序的，即对任何a，b ?A,只有a=b或者a?b,则称Ai为分类属性如果A1,A2,…,Am都为分类属性，则属性?为分类空间相异度度量设X，Y为m个分类属性的分类对象，它们之间的相异度定义为： d(x,y)对一个属性上的每个类赋予了相同的权重考虑属性出现的频率对出现频率较低的类给予了更大的权重 nxj为数据集中属性j上的值为xj的对象数数据集的模（mode）设X为一组分类对象，分类属性包括A1,A2,…,AM X={X1,X2,…Xn}的模: 向量Q=[q1,q2,…,qm],使得最小定理：函数D(Q,X)为最小，当且仅当对所有的j=1,…,m有 Nck,j是在属性上Ai值为ck,j的对象数 K模算法 1.为每个簇选择初始模，共k个 2.根据d，把对象分配给最近的簇。根据定理重新计算簇的模 3.计算每个对象对当前模的相异度，重新分配对象到簇 4.重复上述2，3过程，直到簇中的对象不再发生变化聚类分析什么是聚类分析聚类分析中的数据类型主要聚类方法的分类划分方法层次方法基于密度的方法基于网格的方法基于模型的方法孤立点分析小结 Chapter 8. Cluster Analysis 基于密度的方法 DBSCAN OPTICS DENCLUE 基于网格的方法 STING WaveCluster CLIQUE 基于模型的方法统计学方法神经网络方法孤立点分析小结 DBSCAN(基于高密度连接区域的密度聚类方法） Density-Based Spatial Clustering of Applications with Noise A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise Martin Ester,KDD-96 定义给定半径?和MinPts ，每个聚类中的对象的?-邻域中至少包含MinPts个对象给定对象集合D ? 邻域N?(q): 给定对象半径?内的区域，即{q ? D | dist(p,q) = ?} 核心对象：q ? D，|N?(q)|?MinPts 对象p从对象q出发是直接密度可达：p?N?(q)且|N?(q)| ? MinPts 定义（续）对象p从对象q关于?和MinPts密度可达：存在对象链p1，p2，…，pn，p1=q，pn=p，pi?D，pi+1是从pi关于?和MinPts直接密度可达的（非对称）对象p和q关于?和MinPts密度相连：存在对象o ?D，使得对象p和q 从o关于?和MinPts密度可达（对称） DBSCAN基本思想簇：基于密度可达性的最大的密度相连对象的集合噪音：不在任何簇中的对象边界对象：不是核心对象，但在簇中，即至少从一个核心对象直接可达 DBSCAN算法 1）任意选择没有加簇标签的点 p 2）找到从p关于? and MinPts 密度可达的所有点 3）如果|N?(q)|?MinPts ，则p是核心对象,形成一个新的簇，给簇内所有的对象点加簇标签 4）如果p 是边界点, 则处理数据库的下一点 5）重复上述过程，直到所有的点处理完毕不足和改进只能发现密度相仿的簇对用户定义的参数（ ? and MinPts ）敏感计算复杂度为O(n2) 采用R-树等空间索引技术，计算复杂度为o(nlogn) 图示 A 和 B被认为是噪音 C1和C2两个簇合并了 OPTICS OPTICS:Ordering Points To Identify the Clustering Structure（通过对象排序识别聚类结构） Mihael Ankerst .ACM SIGMOD’99 Int.Conf,1999 对DBSCAN的改进对输入参数不敏感可以发现不同密度的簇用图表等可视化的方式来表示按可达距离排序可自动开采，也可与用户交互引入两个新概念 P 为对象，数据集D，?为距离值，N?(q)为邻域，MinPts P 的核心距离：使得P成为核心对象的最小? 若|（ N?(q)|? M