- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章 聚类分析 聚类分析含义 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类,由聚类所组成的簇是一组对象的集合,这些对象与同一簇中的对象彼此相似,与其它簇中的对象相异。 与分类不同,它要划分的类是未知的。 什么是好的聚类分析? 一个好的聚类分析方法会产生高质量的聚类 高类内相似度 低类间相似度 作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法 聚类方法的所使用的相似性度量和方法的实施 方法发现隐藏模式的能力 数据类型及转换 1、数据矩阵:用p个变量(也称为度量或属性)来表现n个对象,例如用年龄、身高、性别等属性来表现对象“人”。构成一个n * p的矩阵。 2、相异度矩阵:存储n个对象两两之间的近似程度性,表现形式是一个n * n的矩阵。这里d(i,j)是对象i和对象j之间相异性的量化表示 相异度计算 许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。 相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括: 区间标度变量 二元变量 标称型、序数型和比例标度型变量 混合类型的变量 数据类型及转换 3、区间标度度量 一个粗略线性标度的连续度量。(如重量,温度等) 为什么这么做? 选用的度量单位会直接影响聚类结果。例如千克改位克。一般,所用的单位越小,变量的值域就越大,对聚类的影响也越大。为了避免数据对度量单位的依赖,数据应当标准化。 实现度量值的标准化:将原来的度量值转换为无单位的值。 变换方法 1)计算平均的绝对偏差Sf 2)计算标准化度量值,或z-score: 对象的相似度计算方法 示例 其它类型变量的相异度计算 其它类型变量的相异度计算 如何处理序数型变量? 6、混合类型的变量 6、混合类型的变量 类间距离 距离函数都是关于两个样本的距离刻画,然而在聚类应用中,最基本的方法是计算类间的距离。 设有两个类Ca和Cb,它们分别有m和h个元素,它们的中心分别为γa和γb。设元素x∈ Ca,y∈ Cb ,这两个元素间的距离通常通过类间距离来刻画,记为D(Ca, Cb)。 类间距离的度量主要有: 最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。 最长距离法:定义两个类中最远的两个元素间的距离为类间距离。 中心法:定义两类的两个中心间的距离为类间距离。 类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离: 离差平方和。 中心法 中心法涉及到类的中心的概念。假如Ci是一个聚类,x是Ci内的一个数据点,那么类中心定义如下: 其中ni是第i个聚类中的点数。因此,两个类Ca和Cb的类间距离为: 其中γa和γb是类Ca和Cb的中心点,d是某种形式的距离公式。 离差平方和 离差平方和用到了类直径的概念: 类的直径反映了类中各元素间的差异,可定义为类中各元素至类中心的欧氏距离之和,其量纲为距离的平方: 根据上式得到两类Ca和Cb的直径分别为γa和γb ,类Ca +b= Ca ? Cb的直径为γa +b ,则可定义类间距离的平方为: 三、划分方法 划分方法: 给定一个有n个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇,k? n。也就是说,它将数据划分为k个簇,而且这k个划分满足下列条件: 每一个簇至少包含一个对象。 每一个对象属于且仅属于一个簇。 对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。 给定一个k,要构造出k个簇,并满足采用的划分准则: k-平均 :由簇的中心来代表簇; k-中心点: 每个簇由簇中的某个数据对象来代表。 聚类设计的评价函数 一种直接方法就是观察聚类的类内差异(Within cluster variation)和类间差异(Between cluster variation)。 类内差异:衡量聚类的紧凑性,类内差异可以用特定的距离函数来定义,例如, 类间差异:衡量不同聚类之间的距离,类间差异定义为聚类中心间的距离,例如, 聚类的总体质量可被定义为w(c)和b(c)的一个单调组合,比如w(c) / b(c) 。 k-means算法 k-means算法 算法首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。 准则函数试图使生成的结果簇尽可能地紧凑和独立。 k-means例子 k-means算法的性能分析 主要优点: 是解决聚类问题的一种经典算法,简单、快速。 对处理
文档评论(0)