- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Ch.5 数据聚类
第1章 绪论 * * 数据聚类 模式识别 钟珞等编著 武汉大学出版社 2006.9 本章主要内容 5.1 聚类的三个要点 5.2 模式相似性测度 5.3 聚类准则函数 5.4 分级聚类 5.5 动态聚类 5.6 有效性分析 第5章 数据聚类 5.1 聚类的三个要点 聚类是对样本按照它们之间的相似性进行分类,使类内样本有极大相似性,不同类间样本有极大的相异性。 聚类有三个要点: 1.相似性度量:解决相似性的测度问题。 2.聚类准则:选择准则函数,使聚类最佳。 3.聚类算法:设计聚类算法,达到最好的聚类结果。 第5章 数据聚类 5.2 模式相似性测度 5.2.1 相似性测度 设:X,X’为两个d维的特征向量,则可定义: 1.欧氏距离 特点:在各向均匀分布时是合理的。 2.马氏距离 D=[(X-X’)T?-1(X-X’)]1/2 其中?为协方差矩阵 3.明氏距离 当q=1时为曼哈坦距离 4.夹角余弦 第5章 数据聚类 第1章 绪论 5.2.2 标准化问题 相似性测度存在的问题: ①距离测度:具有平移不变性和旋转不变性,但是线性变换会出现变形; ②角度测度:具有线性变换不变性。 因此,在聚类之前必须进行标准化和规范化。 标准化:在聚类之前,进行量纲统一。 标准化可能引起划分的误差。 规范化:进行归一处 理。 说明:数据集中的数 据呈现随机分布时标准 化可取得较好的效果。 第5章 数据聚类 5.3 聚类准则函数 设有样本集χ={x1,x2,…,xn},要划分成c个不相交的子集χ1,χ2,…,χc. 5.3.1 误差平方和准则 令ni=|χi|,则, 其中: 在一个好的聚类中,类内各样本与mi的距离越小,则Je越小。Je最小的划分为最优划分,又称最小方差划分。 讨论:误差平方和准则适合于类内数据稠密型。但是不同聚类所包含的样本数相差很大时,将一个大的类分开可能能够取得更小的误差平方和。 P.106 Fig.5-4 第5章 数据聚类 5.3.2 散布准则 本节通过一些散布矩阵定义一些准则函数。 ① 第i个子类的散布矩阵 ② 类内散布矩阵 ③ 类间矩阵 其中, ④ 总体散布矩阵 第5章 数据聚类 1. 迹准则 2. 行列式准则 5.3.3 基于模式和类核间距离的准则函数 1.问题:前面的准则函数是以点(均值向量)表示一个类的位置,忽略了类的形状和模式分布情况。 2.定义:ωi类模式分布结构的核函数: Ki=K(X,Vi) 其中:Vi --参数集; X---特征空间中点; Ki--函数、属于同 一类模式集合、其他模型。 第5章 数据聚类 3.准则函数 判定模式X是否属于ωi,应测度X与Ki的距离。 设X和类ωi(i=1,2,…,c)的距离为d(X,Ki).判定规则为: d(X,Kj)=Min{d(X,Ki)→X∈ωj 基于模式与核的距离的准则函数为: 在d(X,Ki)为某种距离的度量,算法使JK取最小。 5.4 分级聚类算法 在等级群中已经介绍。 第5章 数据聚类 5.5 动态聚类法 思想:先选一批有代表性的样本作为初始中心,找一个初始划分,然后通过不断调整聚类中心重新进行聚类,直到满足要求为止。 2.初始中心选择 (1)任取前c个样本; (2)依据问题性质,按照经验进行选取; (3)全部样本随即划分; (4)密度法:以每个样本为中心,以d为半径的球形 内计算样本个数。将密度最大的样本选择为中心。 (5)动态确定初始中心:先将全体样本看作一个聚类,其中心为总体均值;然后再确定两聚类问题的代表点,它们为一类问题的均值和距它最远的点;依次类推。 第5章 数据聚类 3. 类划分方法 确定初始聚类中心后,可按照一下方法进行分类: (1)最小距离:按样本到聚类中心的最小
文档评论(0)