数据挖掘Chapter9概要1.pptVIP

下载本文档

16
0
约1.67万字
约 99页
2017-07-10 发布于湖北
举报
版权申诉

数据挖掘Chapter9概要1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘Chapter9概要1

数据挖掘：概念与技术数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明等译人民邮电出版社第9章聚类分析:附加的问题与算法 9.1 数据、簇和聚类算法的特性 K均值和DBSCAN比较都是将每个对象指派到单个簇的划分聚类算法，但是K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象 K均值使用基于原型的概念，而DBSCAN使用基于密度的概念 DBSCAN可以处理不同大小和不同形状的簇，并且不太受噪声和离群点的影响。K均值很难处理非球形的簇和不同大小的簇。当簇具有很不相同的密度时，两种算法的性能都很差 K均值只能用于具有明确定义的质心的数据。DBSCAN要求密度定义对于数据是有意义的 K均值和DBSCAN比较 K均值可以用于稀疏的高维数据，如文档数据。DBSCAN通常在这类数据上性能很差都能扩展, 处理非欧几里得数据 DBSCAN不对数据的分布做任何假定。基本K均值算法假定所有的簇都来自球形高斯分布, 具有不同的均值, 但具有相同的协方差矩阵 DBSCAN和K均值都寻找使用所有属性的簇，即它们都不寻找可能只涉及某个属性子集的簇 K均值可以发现不是明显分离的簇，即便簇有重叠（见图8-2b）也可以发现，但是DBSCAN会合并有重叠的簇 K均值和DBSCAN比较 K均值算法的时间复杂度是O(m)，而DBSCAN的时间复杂度是O(m2) DBSCAN多次运行产生相同的结果，而K均值可能产生不同结果 DBSCAN自动地确定簇个数, 但必须指定Eps（邻域半径）和MinPts（最少点数）；对于K均值，簇个数需要作为参数指定 K均值聚类可以看作优化问题， DBSCAN不基于任何形式化模型数据特性高维性在高维数据集中, 传统的欧几里得密度定义（单位体积中点的个数）变得没有意义规模许多聚类算法都不能很好处理大型数据集稀疏性稀疏数据通常由非对称的属性组成噪声和离群点对K均值这样的基于原型的算法有很大影响属性和数据集类型不同的邻近性和密度度量适合于不同类型的数据当属性具有很多不同的类型时，邻近性和密度更难定义数据特性尺度不同的属性，如高度和重量，可能用不同的尺度度量如果使用欧几里得距离作为邻近性度量，则需要规范化数据空间的数学性质有些聚类技术计算数据点集合的均值另一些算法要求密度的定义对于数据是有意义的簇特性数据分布某些聚类技术假定数据具有特定的分布形状有些簇具有规则的形状更一般地，簇可以具有任意形状不同大小当簇具有不同的大小时, 许多算法不能很好地处理不同密度具有很不相同的密度的簇可能对诸如DBSCAN和K均值等算法造成问题无明显分离的簇当簇接触或重叠时，有些聚类技术将应当分开的簇合并簇特性簇之间的联系如簇的相对位置大部分聚类技术中，都不明显地考虑簇之间的联系子空间簇簇可能只在维（属性）的一个子集中存在，并且使用一个维集合确定的簇可能与使用另一个维集合确定的簇很不相同聚类算法的一般特性次序依赖性某些算法所产生的簇的质量和个数可能因数据处理的次序不同而显著地变化非确定性像K均值这样的聚类算法每次运行都产生不同的结果，因为它们依赖于需要随机选择的初始化步骤可伸缩性对于大型数据集，即使具有O(m2)复杂度的算法也不切实际参数选择大部分聚类算法需要用户设置一个或多个参数参数越少越好聚类算法的一般特性变换聚类问题到其他领域例如, 基于图的聚类将发现簇的任务映射成将邻近度图划分成连通分支将聚类作为最优化问题处理聚类常常被看作优化问题：将点划分成簇，根据用户指定的目标函数度量，最大化结果簇集合的优良度穷举的方法在计算上是不可行的 9.2 基于原型的聚类基于原型的聚类扩展基于原型的概念允许对象属于多个簇对象以某个权值属于每一个簇用统计分布对簇进行建模对象通过一个随机过程，由一个被若干统计参数（如均值和方差）刻画的统计分布产生簇被约束为具有固定的联系通常, 联系是指定近邻关系的约束 1. 模糊聚类对每个对象和每个簇赋予一个权值，指明该对象属于该簇的程度即, wij是对象xi属于簇Cj的权值模糊集合 1965年，Lotfi Zadeh引进模糊集合论（fuzzy set theory）和模糊逻辑（fuzzy logic）模糊集合论允许对象以0和1之间的隶属度属于一个集合模糊逻辑允许一个陈述以0和1之间的确定度为真例, “天空多云”的为真