《数据仓库与数据挖掘》第10章（聚类规则） .docVIP

下载本文档

33
0
约 20页
2015-08-01 发布于河南
举报
版权申诉

《数据仓库与数据挖掘》第10章（聚类规则） .doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析主要内容聚类分析概述聚类分析中的数据类型区间标度变量二元变量标称型、序数型和比例标度型变量混合类型变量主要的聚类分析方法基于划分方法（partitioning method）基于层次方法（hierarchical method）基于密度的方法（density-based method）基于网格的方法（grid-based method）基于模型的方法（model-based method）基于划分的聚类规则挖掘算法基于层次的聚类规则挖掘算法基于密度的聚类规则挖掘算法聚类系统的体系结构聚类分析概述 1. 什么是聚类聚类（clustering）是将物理或抽象对象的集合分组成为多个类或簇（cluster）的过程，使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。在许多应用场合，可以将一个蔟中的对象作为一个整体来对待。聚类与分类不同的是，它要划分的类是未知的。即聚类是一种无指导学习，它不依赖预先定义的类和带类标号的训练实例。由于这个原因，聚类是观察式学习，而不是示例式学习。 2. 聚类分析的应用聚类分析已经广泛的用在许多应用中，包括模式识别、数据分析、图象处理以及市场研究。通过聚类，人能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的相互关系。以下是聚类分析的几种典型应用。（1）商业：帮助市场分析人员从客户基本库中发现不同的客户群，并且用不同的购买模式描述不同客户群的特征。（2）生物学：推导植物或动物的分类，对基因进行分类，获得对种群中固有结构的认识。（3）WEB文档分类。（4）其他：如地球观测数据库中相似地区的确定；各类保险投保人的分组；一个城市中不同类型、价值、地理位置房子的分组等。（5）作为其他数据挖掘算法的预处理：即先进行聚类，然后再进行分类等其他的数据挖掘。聚类分析是一种数据简化技术，它把基于相似数据特征的变量或个案组合在一起。 3. 聚类分析的发展聚类分析是一种重要的人类行为，它源于许多研究领域，包括数据挖掘、统计学、生物学以及机器学习。作为统计学的一个分支，聚类分析已经被广泛的研究了许多年，主要集中在基于距离的聚类分析。基于k-means(k-平均值)、k-medoids(k-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析包或系统中。在机器学习领域，聚类是无指导学习的一个例子。在概念聚类中，一组对象只有当它们可以被一个概念描述时才形成一个簇。这不同于基于几何距离来度量相似度的传统聚类。概念聚类由两个部分组成：发现合适的簇和形成对每个簇的描述。在这里，追求较高类内相似度和较低类间相似度的指导原则仍然适用。在数据挖掘领域，关于聚类分析的研究工作主要集中在为大型数据库寻找适当和有效的聚类分析方法。活跃的研究主题集中在聚类方法的可伸缩性、方法对聚类复杂形状和类型的数据的有效性、高维聚类分析技术以及针对大型数据库中混合数值和分类数据的聚类方法。 4. 聚类分析的要求聚类是一个富有挑战性的研究领域。它的潜在应用提出了各自特殊的要求。数据挖掘对聚类的典型要求如下：（1）可伸缩性：许多聚类算法在小于200个数据对象的小数据集合上工作的很好。但是一个大规模数据库可能包含几百万个对象。在这样的大数据集合样本上进行聚类可能会导致有偏差的结果。我们需要具有高度可伸缩的聚类算法。（2）处理不同类型属性的能力：许多算法被设计用来聚类数值类型的数据。但是，应用可能要求聚类其他类型的数据，如二元类型（binary），分类\标称类型（categorical/nominal），序数型（ordinal）数据，或者这些数据类型的混合。（3）发现任意形状的聚类：许多聚类算法基于欧几里德距离或者曼哈坦距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相似尺度和密度的球状簇。但是，一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。（4）用于决定输入参数的领域知识最小化：许多聚类算法在聚类分析中要求用户输入一定的参数，例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定，特别是对于包含高维对象的数据集来说，更是如此。要求用户输入参数不仅加重了用户的负担，也使得聚类的质量难以控制。（5）处理噪声数据的能力：绝大多数现实世界中的数据库都包含了孤立点，空缺，未知数据或者错误的数据。一些聚类算法对于这样的数据敏感，可能导致低质量的聚类结果。（6）对于输入记录的顺序不敏感：一些聚类算法对于输入数据的顺序是敏感的。例如，同一个数据集合，当以不同的顺序提交给同一个算法时，可能生成差别很大的聚类结果。开发对数据输入顺序不敏