模式识别(8)非监督学习方法.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
§8.3 分级聚类方法 (类别数未知情况下) 分级聚类方法的目的并不把N个样本分成某一个预定的类别数C,而是把样本集按不同的相似程度要求分成不同类别的聚类。 最极端的情况是每个样本各自为一类,N个样本共有N类,没有任何聚类,另一极端则是将所有样本归一类。在这两个极端之间的是类别数从N逐渐减少,每类的数量相应增加,而类内样本的相似程度要求也随之下降。 这种聚类就是分级聚类,它可以用一树形结构表示。 分级聚类树表示方法 这是一棵具有6个样本的分类树。图中左边表示分级层次,第一层次各样本自成一类,其类内相似度自然是百分之百,在第二层次y3与y5合成一类,第三层次y1与y4也合并成一类,依次下去。一经合并成一类的样本不再分裂,类别数也随之逐渐减少,类内相似程度逐渐降低。 这种聚类方法在科学技术领域中得到了广泛的应用,如生物分类就是分级聚类应用的一个例子。 两聚类间的距离度量 聚类 间的距离度量 最近距离: 最远距离: 均值距离: 两个聚类的质心 可以是任何一种距离度量 采用最远,最近或均值来衡量相似性会产生各自不同的聚类效果 分级聚类算法步骤 分级聚类算法 采用最近距离作相似性度量时聚成两类的结果 (a) (b) (c) 图1 图2 最远距离的聚类结果 (a) (b) (c) 图3 分析 从图2与3的比较中可以看出,使用最近距离与最远距离在样本不同的分布中可能得出不同的结果,图1(a)与(b)不同在于(b)中两个密集的分布中间多了两个干扰点y1与y2。 在使用最短距离时,它对聚类产生了明显的影响,在图2中(a)与(b)是两种很不相同的聚类结果,然而在图3的(a)与(b)中可以看出两个干扰点对聚类没有明显的影响,这说明采用最近距离对两个密集区的相邻区中的干扰点十分敏感,而用最远距离则可防止两个密集区通过某个路经聚为一类的可能性。 但是如果我们再对比图2中(c)的点集分布情况及使用最近距离与最远距离的聚类结果,可以看出最近距离对这种长条形分布是比较适合的,而最远距离不能检出具有长条形状的聚类。显然使用最远距离将使个别的远离点对聚类结果产生明显的影响。至于使用均值距离的效果,将介乎于上述两者之间。 例题 设两类的样本数据分别为 求1)两类样本的均值。 2) 若将 数据从第一个类转移至第二类时,误差平方和准则函数值J的变化量。 补充:矩阵的特征值与特征向量的计算 已知A=(aij)n×n,求代数方程式 称为A的特征多项式,代数方程式的解: 称为A的特征值。 求解方程 的非零解,即求方程的解: x称为矩阵A对应于 的特征向量。 * 模式识别 第八章非监督学习方法 §8.1 引言 有监督学习(supervised learning): 以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的,这些样本称为训练样本。在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计。?? 用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类。 §8.1 引言 非监督学习(unsupervised learning) : 样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering),试图使类内差距最小化,类间差距最大化。 利用聚类结果,可以提取数据集中隐藏的信息,对未来数据进行预测和分类。应用于数据挖掘、模式识别、图像处理、经济学…… 广泛的应用领域 商务:帮助市场分析人员从客户信息库中发现不同的客户群,用购买模式来刻画不同的客户群的特征 土地使用:在地球观测数据库中识别土地使用情况相似的地区 保险业:汽车保险单持有者的分组,标识那些有较高平均赔偿成本的客户。 城市规划:根据房子的类型,价值和地理分布对房子分组 生物学:推导植物和动物的分类,对基因进行分类 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类。 有监督学习与非监督学习的区别 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。 有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档