7-无监督学习和聚类.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模 式 识 别 Pattern Recognition 吴贵芳 easyfancy@126.com 谢谢! k-均值算法举例 彩色图像分割: k-均值算法 1.准则函数—误差平方和准则 2.样本集初始划分 3.迭代计算 k-均值算法的其他考虑 按照与c个代表点的最小距离法对新样本y进行分类,即: 初始划分的方法 更新均值的时机:逐个样本修正法与成批样本修正法 聚类数目的动态决定 K-算法举例 例:已知有20个样本,每个样本有2个特征,数据分布如下图 样本序号 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 特征x1 0 1 0 1 2 1 2 3 6 7 特征x2 0 0 1 1 1 2 2 2 6 6 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 8 6 7 8 9 7 8 9 8 9 6 7 7 7 7 8 8 8 9 9 第一步:令K=2,选初始聚类中心为 第三步:根据新分成的两类建立新的聚类中心 第四步: ∵ 转第二步。 第二步:重新计算 到z1(2) , z2(2) 的距离,把它们归为最近聚类中心,重新分为两类, 第三步,更新聚类中心 第四步, 第二步, 第三步,更新聚类中心 上机作业 已知十个样本,每个样本2个特征,数据如下: 用K-均值算法分成3类,编程上机,并画出分类图。 样本序号 1 2 3 4 5 6 7 8 9 10 x1 0 1 2 4 5 5 6 1 1 1 x2 0 1 1 3 3 4 5 4 5 6 (2). ISODATA算法 ISODATA算法的功能与k-均值算法相比,在下列几方面有改进。 考虑了类别的合并与分裂,因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况,或两类聚类中心之间距离太小的情况。 算法有自我调整的能力. 考虑了类别的合并与分裂,因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况,或两类聚类中心之间距离太小的情况。 (3).样本与聚类间相似性度量 样本x与聚类Ki间相似性度量: 聚类的表示: 样本集Ki ={xj(i)} 用一个所谓的“核函数”Ki,如样本集的某种统计量 (3). 样本与聚类间相似性度量 基于样本与聚类间相似性度量的动态聚类算法 初始化:选择c个初始聚类K1, K2, …, Kc 建立c个空聚类列表: L1, L2, …, Lc 按照最相似法则逐个对样本进行分类: 计算J 并用{Li }更新各聚类核函数{Ki } 若J不变则停止。否则转2 (3). 正态核函数的聚类算法 正态核函数,适用于各类为正态分布 参数集Vi={mi,Σi}为各类样本统计参数 相似性度量: 9.3.2 近邻函数准则算法 近邻函数:样本间相似性的度量 如果yi是yj的第I个近邻, yj是yi的第K个近邻 aij = I + K ? 2 , i≠j 近邻函数使得密度相近的点容易聚成一类 同一类中的点之间存在“连接”。连接损失就定义为两点之间的近邻函数aij 一个点和其自身的连接损失aii=2N,以惩罚只有一个点的聚类 不同类的点不存在连接,连接损失aii=0 总类内损失: 9.3.2 两类间最小近邻函数值 第i类和第j类间最小近邻函数值定义为: 第i类内最大连接损失记为: aimax 第i类与第j类之间的连接损失定义为bij,它的设计目标是:如果两类间的最小近邻值大于任何一方的类内的最大连接损失时,损失代价就是正的,从而应该考虑把这两类合并 9.3.2 近邻函数准则 总类间损失: 准则函数: 算法步骤: 计算距离矩阵 用距离矩阵计算近邻矩阵M 计算近邻函数矩阵L 在L 中,每个点与其最近邻连接,形成初始的划分 对每两个类计算rij 和aimax,ajmax ,只要rij 小于aimax、ajmax中的任何一个,就合并两类(建立连接)。重复至没有新的连接发生为止 9.4 分级聚类方法 划分序列:N个样本自底向上逐步合并一类: 每个样本自成一类(划分水平1) K水平划分的进行:计算已有的c=N-K+2个类的类间距离矩阵D(K-1)=[dij](K-1),其最小元素记作d(K-1),相应的两个类合并成一类 重复第2步,直至形成包含所有样本的类(划分水平N) 划分处于K水平时,类数c=N-K+1,类间距离矩阵D(K)=[dij](K),其最小元素记作d(K) 如果d(K) 阈值dT,则说明此水平上的聚类是适宜的 分级聚类树表示方法 y1 y2 y3 y4 y5 y6 100 90 80 70 60 50 40 1

文档评论(0)

chengceng147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档