chap8聚类分析概论.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap8聚类分析概论

Clustering Analysis (聚类分析);提纲;聚类介绍;什么是聚类; 一个具有清晰簇结构的数据集;分类 vs. 聚类;聚类介绍; 聚类分析正在蓬勃发展,广泛应用于一些探索性领域,如统计学与模式分析,金融分析,市场营销,决策支持,信息检索,WEB挖掘,网络安全,图象处理,地质勘探、城市规划,土地使用、空间数据分析,生物学,天文学,心理学,考古学等。;聚类分析无处不在;聚类分析无处不在;聚类分析无处不在;聚类的应用领域; 万维望—搜索结果的聚类:更好地浏览; 万维望—全局浏览: Yahoo ;聚类介绍;聚类分析原理介绍;聚类分析原理介绍;聚类分析原理介绍;聚类分析原理介绍;聚类分析原理介绍;聚类分析原理介绍;聚类介绍;不同的聚类类型;划分聚类;层次聚类;互斥 vs 非互斥 在非互斥的聚类中,一个点可能属于多个不同的簇。 互斥的聚类中,每个对象都指派到单个簇。 可以表示多个类别或者边界点 模糊 vs 非模糊 在模糊的聚类中,每个对象点以0和1之间的隶属权重属于每个簇,即簇视为模糊集 约束条件:权重值和必须为1 实际中,通过将对象指派到具有最高隶属权值或概率的簇,将模糊或概率聚类转换成互斥聚类。;部分的 vs 完全的 完全聚类将每个对象指派到一个簇 部分聚类,数据集中某些对象可能不属于明确定义的组,数据集中一些对象可能代表噪声、离群点或“不感兴趣的背景”。因此,只需要聚类部分数据;聚类介绍;怎样判断聚类结果的好坏?;外部准则: 纯度;纯度计算的例子;外部准则-F值;外部准则-F值; —— 基于划分的聚类算法;划分方法;基本k-Means算法;基本k-Means算法-指派最近质心;基本k-Means算法-质心和目标函数;基本k-Means算法;示例1:坐标表示5个点{X1,X2,X3,X4,X5}作为一个聚类分析的二维样本: X1=(0,2), X2=(0,0), X3=(1.5,0), X4=(5,0), X5=(5,2)。 假设要求的簇的数量k=2。 思路: 由样本的随机分布形成两个簇:C1={X1, X2, X4}和 C2={X3, X5} 这两个簇的质心M1和M2是: M1={(0+0+5)/3, (2+0+0)/3}={1.66, 0.66}; M2={(1.5+5)/2,(0+2)/2}={3.25, 1.00};; 样本初始随机分布之后,误差是: E12 = [(0-1.66)2+(2-0.66)2] + [(0-1.66)2+(0-0.66)2] + [(5-1.66)2+(0-0.66)2]=19.36; E22=8.12; 误差平方和是: E2=E12+E22=19.36+8.12=27.48; 按与质心(M1或M2)间距离关系,选择最小距离分 配所有样本,簇内样本的重新分布如下: d(M1,X1)=(1.662+1.342)1/2=2.14 d(M2,X1)=3.40 ==X1∈C1; d(M1,X2)=1.79 和d(M2,X2)=3.40 ==X2∈C1 d(M1,X3)=0.83 和d(M2,X3)=2.01 ==X3∈C1 d(M1,X4)=3.41 和d(M2,X4)=2.01 ==X4∈C2 d(M1,X5)=3.60 和d(M2,X5)=2.01 ==X5∈C2 新簇C1={X1,X2,X3}和C2={X4,X5}; 计算新的质心 : M1={0.5,0.67};M2={5.0,1.0}。 相应的方差及总体平方误差分别是: E12=4.17;E22=2.00;E=6.17; 可以看出第一次迭代后,总体误差显著减小(从值 27.48到6.17)。 在这个简单的例子中,第一次迭代同时也是最后一 次迭代,因为如果继续分析新中心和样本间的距离 样本将会全部分给同样的簇,不将重新分配,算法 停止。 ;k-Means特点;二分k-means算法-对初始化质心问题不太敏感 ;K-Mediods(K-中心点)算法;k中心点算法之一--PAM;k中心点算法分析; —— 基于层次的聚类算法;层次聚类概述;层次聚类概述;层次聚类概述;凝聚式聚类;初始情形;聚类过程中的情形;聚类过程中的情形;合并后;如何定义簇间的相似度;簇相似度: MIN 或者单链 (Single Link);簇相似度: MIN 或者单链 (Single Link);簇相似度: MIN 或

文档评论(0)

骨干 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档