- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1第七章 聚类分析分类与聚类的区别分类:用已知类别的样本训练集来设计分类器(监督学习)聚类(集群):事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习)第1页,共94页。
27.1 聚类的基本概念7.2 模式相似性测度7.3 类的定义与类间距离7.4 聚类算法 启发式聚类:简单聚类层次(分级)聚类(hierarchical clustering) : 分裂聚类、 合并聚类、 动态聚类。其它聚类算法第2页,共94页。
337.1 聚类的基本概念似圆度7.1.1 聚类分析的基本思想 据相似程度聚类 无监督聚类(Unsupervised)第3页,共94页。
447.1.2 聚类准则对聚类结果的影响羊,狗,猫, 鲨鱼蜥蜴,蛇,麻雀,海鸥,金鱼,青蛙(a)繁衍后代的方式金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(b) 肺的存在金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(c) 生存环境金鱼蜥蜴,蛇,麻雀,海鸥,青蛙(d)繁衍后代的方式和是否存在肺鲨鱼羊,狗,猫,7.1 聚类的基本概念第4页,共94页。
57.1.3 距离测度对聚类结果的影响2.1 聚类的基本概念5数据的粗聚类是两类,细聚类为4类第5页,共94页。
667.2 模式相似性测度7.2.1 距 离 测 度7.2.2 相 似 测 度7.2.3 匹 配 测 度第6页,共94页。
777.2.1 距离测度(差值测度)Distance (or Dissimilarity) Measure设特征矢量 和 的距离为则 一般应满足如下公理(1)(2)(3)(triangular inequality)第7页,共94页。
8 距离测度(差值测度)⑴ 欧氏(Euclidean)距离⑵ 绝对值距离(街坊距离或Manhattan距离)(3) 切氏(Chebyshev)距离第8页,共94页。
9 距离测度(差值测度)(4) 明氏(Minkowski)距离(5) Cambera距离(Lance距离、Willims距离)该距离能克服量纲的影响,但不能克服分量间的相关性。第9页,共94页。
10 距离测度(差值测度)(6)马氏(Mahalanobis)距离其中(协方差矩阵的无偏估计)(均值向量的估计) 性质:对一切非奇异线性变换都是不变的。即,具有坐标系比例、旋转、平移不变性,并且从统计意义上尽量去掉了分量间的相关性。第10页,共94页。
11马氏距离具有线性变换不变性证明:设,有非奇异线性变换:则第11页,共94页。
12故第12页,共94页。
13马氏距离的一般定义 设 、 是从期望矢量为 、协方差矩阵为?的母体G中抽取的两个样本,则它们间的马氏距离定义为 当 和 是分别来自两个数据集中的样本时,设C是它们的互协方差阵,则它们间的马氏距离定义为当?、V、C为单位矩阵时,马氏距离?欧氏距离。对于正态分布,等概率密度点轨迹是到均值矢量的 马氏距离为常数的点所构成的超椭球面。第13页,共94页。
147.2.2 相 似 测 度重点考虑两矢量的方向是否相近,而忽略矢量长度。(1) 角度相似系数(夹角余弦)矢量之间的相似性可用它们的夹角余弦来度量(2) 相关系数数据中心化后的矢量夹角余弦性质:相关系数具有坐标系平移、旋转、比例不变性。第14页,共94页。
1515性质:不受量纲变化的影响。(3) 指数相关系数这里假设 和 的维数 n 相同、概率分布相同。 是第 i 个分量的方差。第15页,共94页。
167.2.3 匹 配 测 度若特征只有两个状态:0 = 有此特征;1 = 无此特征。称之为二值特征。对于给定的二值特征矢量x和y中的某两个相对应的分量xi与yj若xi=1, yj=1 ,则称 xi与yj (1-1)匹配;若xi=1, yj=0 ,则称 (1-0)匹配;若xi=0, yj=1 ,则称 (0-1)匹配;若xi=0, yj=0 ,则称 (0-0)匹配。对于二值n维特征矢量可定义如下相似性测度:第16页,共94页。
17 匹 配 测 度(1) Tanimoto测度(1-1)匹配的特征数目(0-1)匹配的特征数目(1-0)匹配的特征数目(0-0)匹配的特征数目令注意,这里只考虑(1-1)匹配,而不考虑(0-0)匹配。第17页,共94页。
18匹 配 测 度(2) Rao测度(3) 简单匹配系数(4) Dice系数(5) Kulzinsky系数(1-1)匹配特征数目与特征总数之比(1-1)匹配+(0-0)匹配/特征总数只对(1-1)匹配加权(1-1)匹配/ (1-0)匹配+(0-1)匹配第18页,共94页。
1919例 1 设(1) Tanimoto
您可能关注的文档
最近下载
- 一年级数学起步,玩中学不焦虑——2025秋家长培训发言稿.pptx VIP
- 保险学(第五版)课件全套魏华林第0--18章绪论、风险与保险---保险市场监管、附章:社会保险.pptx VIP
- 电力市场的原理、变革与关键问题(41页).pptx VIP
- 《康复评定技术》课件——第五章 言语功能评定技术.ppt VIP
- 电子产品维修技术中职全套教学课件.pptx
- 化妆师理论知识考试模拟试卷及答案.docx VIP
- 《康复评定技术》课件——第三章 心肺功能评定技术.ppt VIP
- 2023年CSP-S组(提高组)初赛真题(文末附答案).pdf VIP
- DB53_T 1097-2022 受污染耕地严格管控技术规范.docx VIP
- 2021年一级建造师市政李四德-锦囊妙计.pdf VIP
文档评论(0)