- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘 第6章 数据聚类 * 数据分类:在已知类标号的训练集基础上进行分类器设计工作的,所以分类方法又称为监督学习方法。 聚类分析:又称为非监督学习方法;使用的数据集样本没有类标号。 聚类分析方法可以将数据集划分为多个类别,由此可以给每个样本标注类标号。聚类之后的数据集可以直接用来进行科学分析,也可以作为其他方法的训练集。 6.1 引例 表6.1给出了一个聚类分析的示例数据集,其中包含两个描述属性,不包含类别属性。 聚类分析的任务是将这7个数据样本划分为多个聚类,即将相似度较高的样本归为一个类别。例如,对于表6.1中的数据集,可以使用样本之间的距离来表示相似度,两个样本之间的距离越近,它们属于一个聚类的可能性就越大。 表6.1 聚类分析示例数据集 聚类分析是将物理的或者抽象的数据集合射分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。 相似度可以根据数据样本的描述属性的具体取值来计算,通常采用数据样本间的距离来表示。 聚类分析中使用的数据集表示为X={xi︳i=1,2,…,total),其中数据样本xi(i=1,2,…,total)用d维特征向量xi=(xi1,xi2…,xid)来表示,xi1,xi2,…Xid分别对应d个描述属性A1,A2,…,Ad的具体取值。描述属性可以是连续型属性(如表6.1所示)、离散型属性或者混合型属性。此外,不同类型描述属性的相似度的计算方法不同。 6.2聚类分析概述 聚类分析是数据挖掘应用的主要技术之一,它可以作为一个独立的工具来使用,将未知类标号的数据集划分为多个类别之后,观察每个类别中数据样本的特点,并且对某些特定的类别作进一步的分析。 聚类分析还可以作为其他数据挖掘技术(例如分类学习、关联规则挖掘等)的预处理工作。 聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘和Web数据挖掘等领域都有广泛应用。 对聚类分析的要求有以下几个方面。 (1)可伸缩性。在以往的应用中,聚类分析方法所处理的数据集都是小数据集,而且比较有效。。面对大数据集,聚类分析方法对数据集的划分结果可能会与理想的划分存在着偏差。因此,对数据集的处理具有良好的可伸缩性是聚类分析的重要研究内容。 (2)处理不同类型属性的能力。聚类分析中的许多算法都是针对具有连续型描述属性的数据集设计的。聚类算法可以处理不同类型属性的数据集,例如连续型属性、二值离散型属性、多值(大于2)离散型属性和混合类型属性等。 (3)发现任意形状聚类的能力。许多聚类算法是基于欧氏距离和曼哈顿距离度量来计算数据样本之间的相似度的,基于这样的距离度量的算法倾向于将数据集划分为相近大小和密度的球形聚类。能够划分任意形状数据集的聚类方法是非常重要的。 (4)减小对先验知识和用户自定义参数的依赖性。许多聚类算法要求用户事先确定一些参数,如希望将数据集划分的类别数、选择数据集的初始划分方式等。减小对先验知识和用户自定义参数的依赖性,可以减轻用户进行参数设置的负担,也使得对聚类性能的控制相对容易。 (5)处理噪声数据的能力。大多数数据库或者数据仓库中都包含孤立点、缺失值和错误的数据。噪声数据会干扰许多聚类算法的聚类性能,导致低质量的数据集划分。 (6)可解释性和实用性。用户往往希望聚类结果是可解释的、可理解的并且是可用的,从而可以根据聚类结果进行研究和分析。在低维情况下,可以借助于可视化手段来展示聚类结果;在高维情况下,聚类结果很难被可视化,这时对数据降低维度会有所帮助。 通常聚类算法可以分为以下几类。 (1)划分聚类方法。对于给定的数据集,划分聚类方法通过选择适当的初始代表点将数据样本进行初始聚类,之后通过迭代过程对聚类的结果进行不断的调整,直到使评价聚类性能的准则函数的值达到最优为止。 (2)层次聚类方法。层次聚类方法将给定数据集分层进行划分,形成一个以各个聚类为结点的树型结构。层次聚类方法分为自底向上(凝聚型层次聚类)和自顶向下(分解型层次聚类)两种方式。 (3)基于密度的聚类方法。基本原理:当临近区域的数据密度大于某个阈值时,就不断进行聚类,直到密度小于给定阈值为止。也就是说,每一个类别被看作一个数据区域,对于某个特定类别中的任一数据样本,在给定的范围内必须包含大于给定值的数据样本。基于密度的聚类方法可以用来去除噪声样本,形成的聚类形状也可以是任意的。 (4)基于网格的聚类方法。基于网格的聚类方法将原始的数据空间量化为有限数目的单元,并且由这些单元形成网格结构,所有的聚类操作都要在这个网格结构上进行。基于同格的
原创力文档


文档评论(0)