- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘Chapter9概要1
数据挖掘:概念与技术 数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明 等译 人民邮电出版社 第9章 聚类分析:附加的问题与算法 9.1 数据、簇和聚类算法的特性 K均值和DBSCAN比较 都是将每个对象指派到单个簇的划分聚类算法,但是K均值一般聚类所有对象,而DBSCAN丢弃被它识别为噪声的对象 K均值使用基于原型的概念,而DBSCAN使用基于密度的概念 DBSCAN可以处理不同大小和不同形状的簇,并且不太受噪声和离群点的影响。K均值很难处理非球形的簇和不同大小的簇。当簇具有很不相同的密度时,两种算法的性能都很差 K均值只能用于具有明确定义的质心的数据。DBSCAN要求密度定义对于数据是有意义的 K均值和DBSCAN比较 K均值可以用于稀疏的高维数据,如文档数据。DBSCAN通常在这类数据上性能很差 都能扩展, 处理非欧几里得数据 DBSCAN不对数据的分布做任何假定。基本K均值算法假定所有的簇都来自球形高斯分布, 具有不同的均值, 但具有相同的协方差矩阵 DBSCAN和K均值都寻找使用所有属性的簇,即它们都不寻找可能只涉及某个属性子集的簇 K均值可以发现不是明显分离的簇,即便簇有重叠(见图8-2b)也可以发现,但是DBSCAN会合并有重叠的簇 K均值和DBSCAN比较 K均值算法的时间复杂度是O(m),而DBSCAN的时间复杂度是O(m2) DBSCAN多次运行产生相同的结果,而K均值可能产生不同结果 DBSCAN自动地确定簇个数, 但必须指定Eps(邻域半径)和MinPts(最少点数) ;对于K均值,簇个数需要作为参数指定 K均值聚类可以看作优化问题, DBSCAN不基于任何形式化模型 数据特性 高维性 在高维数据集中, 传统的欧几里得密度定义(单位体积中点的个数)变得没有意义 规模 许多聚类算法都不能很好处理大型数据集 稀疏性 稀疏数据通常由非对称的属性组成 噪声和离群点 对K均值这样的基于原型的算法有很大影响 属性和数据集类型 不同的邻近性和密度度量适合于不同类型的数据 当属性具有很多不同的类型时,邻近性和密度更难定义 数据特性 尺度 不同的属性,如高度和重量,可能用不同的尺度度量 如果使用欧几里得距离作为邻近性度量,则需要规范化 数据空间的数学性质 有些聚类技术计算数据点集合的均值 另一些算法要求密度的定义对于数据是有意义的 簇特性 数据分布 某些聚类技术假定数据具有特定的分布 形状 有些簇具有规则的形状 更一般地,簇可以具有任意形状 不同大小 当簇具有不同的大小时, 许多算法不能很好地处理 不同密度 具有很不相同的密度的簇可能对诸如DBSCAN和K均值等算法造成问题 无明显分离的簇 当簇接触或重叠时,有些聚类技术将应当分开的簇合并 簇特性 簇之间的联系 如簇的相对位置 大部分聚类技术中,都不明显地考虑簇之间的联系 子空间簇 簇可能只在维(属性)的一个子集中存在,并且使用一个维集合确定的簇可能与使用另一个维集合确定的簇很不相同 聚类算法的一般特性 次序依赖性 某些算法所产生的簇的质量和个数可能因数据处理的次序不同而显著地变化 非确定性 像K均值这样的聚类算法每次运行都产生不同的结果,因为它们依赖于需要随机选择的初始化步骤 可伸缩性 对于大型数据集,即使具有O(m2)复杂度的算法也不切实际 参数选择 大部分聚类算法需要用户设置一个或多个参数 参数越少越好 聚类算法的一般特性 变换聚类问题到其他领域 例如, 基于图的聚类将发现簇的任务映射成将邻近度图划分成连通分支 将聚类作为最优化问题处理 聚类常常被看作优化问题:将点划分成簇,根据用户指定的目标函数度量,最大化结果簇集合的优良度 穷举的方法在计算上是不可行的 9.2 基于原型的聚类 基于原型的聚类 扩展基于原型的概念 允许对象属于多个簇 对象以某个权值属于每一个簇 用统计分布对簇进行建模 对象通过一个随机过程,由一个被若干统计参数(如均值和方差)刻画的统计分布产生 簇被约束为具有固定的联系 通常, 联系是指定近邻关系的约束 1. 模糊聚类 对每个对象和每个簇赋予一个权值,指明该对象属于该簇的程度 即, wij是对象xi属于簇Cj的权值 模糊集合 1965年,Lotfi Zadeh引进模糊集合论(fuzzy set theory)和模糊逻辑(fuzzy logic) 模糊集合论允许对象以0和1之间的隶属度属于一个集合 模糊逻辑允许一个陈述以0和1之间的确定度为真 例, “天空多云”的为真
您可能关注的文档
最近下载
- 驾照科目一考试题库(完整版).doc VIP
- 图像传感器ccdcmos.ppt VIP
- 美剧剧本绝望主妇台词本中英文对照精排版第一季第一集.pdf VIP
- CCDCMOS原理介绍讲义..ppt VIP
- 【生物】免疫与免疫规划第2课时课件-2025-2026学年人教版八年级生物上册.pptx VIP
- 驾照科目一考试题库(完整版).doc VIP
- 综合实践 记录我的一天 分享我的一天(说课稿)-2024-2025学年一年级上册数学北师大版(2024).docx VIP
- CCDCMOS的成像原理.docx VIP
- 古罗马法律案例(3篇).docx
- 8.2.1用代入法解二元一次方程组练习题.docx VIP
文档评论(0)