- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘(聚类)
数据挖掘--聚类分析 胡志伟 何乐 什么是聚类? 聚类(clustering)也称为聚类分析 (某些应用中也称数据分割),指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的样本差异尽可能的大。 聚类得到的不同的组称为簇(cluster)。 聚类和分类的区别 分类是一种监督学习,聚类是一种无监督学习,二者最主要的区别是聚类的样本没有类标号,而分类的样本具有类标号。 分类具有训练数据和测试数据,而聚类没有训练,是通过观察学习。 对聚类分析的要求 可伸缩性 处理不同类型属性的能力 发现任意形状的聚类 用于决定输入参数的领域知识最小化 处理噪声数据和孤立点的能力 对于输入纪录的顺序不敏感 高维性 基于约束的聚类 可解释性和可用性 聚类分析中的数据结构 聚类算法中有数据矩阵和相异度矩阵两种数据结构.但许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。 相异度矩阵是一个对象-对象结构.它存放所有n个对象两两之间所形成的差异性(相似性).相异度矩阵采用d(i,j) n×n的下三角矩阵表示。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大。 相异度矩阵可用距离公式计算得到,相异度也称为距离(主要欧氏距离和曼哈顿距离)。 区间标度变量:是一个粗略线性标度的连续度量如重量、高度、温度等,选用的度量单位将直接影响聚类的结果,度量单位越小,变量的取值范围越大,对聚类效果的影响就越大。需要实现度量值的标准化,将原来的值转化为无单位的值。 二元变量:只有两个状态,取0或1值;其中0代表状态不存在;而1则代表相应的状态存在。根据0和1表示的重要性是否相同: 对称的二元变量:性别 不对称的二元变量:阴、阳性 标称型变量:是二元变量的一个扩展。标称变量可对两个以上的状态进行描述,如:红,橙,蓝,绿,青,蓝,紫。 序数型变量:一个序数型变量可是连续的,也可是离散的。离散的序数型变量与标称型变量相似。连续的序数型变量像一组未知范围的连续数据,类似于区间标度变量,但它没有单位,值的相对位置要比它的实际数值有意义得多。 比例标度型变量:比例标度型变量是在非线性的标度上取正的测量值,诸如指数比例,AeBt或Ae-Bt(A和B为正的常数)。 混合类型的变量:在实际数据库中,数据对象往往是用复合数据类型来描述;而且它们常常同时包含几种数据类型。 基本聚类方法概述 划分方法 层次方法 基于密度的方法 基于网格的方法 划分聚类方法 给定n个数据对象的数据集D,及要生成的簇数k,划分算法把数据对象组成k(k=n)个分区,其中每个分区代表一个簇。而且k满足以下条件: 1.每一个簇至少包含一个对象 2.每一个对象属于且仅属于一个簇。 常用的划分方法 k-均值:一种基于形心的技术 k-中心点:一种基于代表对象的技术 k-均值:一种基于形心的技术 基于形心的划分技术使用簇Ci的形心代表该簇。从概念上来讲,簇的形心是它的中心点,一般来说用分配给该簇的点的均值来定义。 对象p∈Ci与该簇的代表ci之差用dist(p,ci) 度量,dist(x,y)是点x,y的欧氏距离。 欧氏距离: i=(xi1,xi2,…,xin) 和 j=(yj1,yj2,…,yjn) 簇Ci的质量可以用簇内变差度量,它是Ci中所有对象和形心ci之间的误差的平方和,定义为: E是数据集中所有对象的误差的平方和;P是空间中的点,表示给定的数据对象;ci是簇Ci:的形心(p和ci都是多维的) k-means 算法基本步骤 从D(包含n个对象的数据集)中任意选择k个对象作为初始簇中心; 根据簇中对象的均值,将每个对象分配到最相似的簇; 更新簇均值,即重新计算每个簇中对象的均值; until不再发生变化; 不能保证k一均值方法收敛于全局最优解,并且它常常止于于一个局部最优解。结果可能依赖于初始簇中心的随机选择。 k-means算法示例 k-means算法的不足 必须事先给出要生成的簇数K,而且对初始值敏感。 不适合用于发现非凸形状的簇,或大小差别很大的簇,对噪声和离群点敏感。 为了解决k-means算法对离群点敏感这个问题,引入了k-中心点算法 k-中心点算法 k中心点方法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中
文档评论(0)