模式识别第七章 非监督分类.pptVIP

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别第七章 非监督分类

第七章 非监督学习方法 主要内容 7.1 引言 有监督学习(supervised learning):用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类?? 非监督学习(unsupervised learning) :样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)?? 方案对比 (1)多维空间投影方法 多维空间y中直接划分成单峰区域比较困难,把它投影到一维空间x中简化问题。 (1)投影方法算法步骤 计算样本y协方差矩阵的最大特征值对应的特征向量u,把样本数据投影到u上,得到v=uTy; 用直方图法求边缘概率密度函数p(v); 找到边缘概率密度函数的各个谷点,在这些谷点上作垂直于u的超平面把数据划分成几个子集; 如果没有谷点,则用下一个最大的特征值代替; 对所得到的各个子集进行同样的过程,直至每个子集都是单峰为止。 (2)单峰子集分离的迭代算法 (2)单峰子集分离的迭代算法 迭代算法步骤 对数据集进行初始划分:K1, K2, …,Kc 用Parzen方法估计各聚类的概率密度函数 按照最大似然概率逐个对样本xk进行分类: 若没有数据点发生类别迁移变化,则停止。否则转2 7.3 类别分离的间接方法 两个要点:相似性度量,准则函数 相似性度量 样本间相似性度量: 特征空间的某种距离度量 样本与样本聚类间相似性度量?? 准则函数 准则函数:聚类质量的判别标准,常用的最小误差平方和准则?? K-均值算法(k-Means) K-均值算法的训练 初始化:选择c个代表点p1, p2, …,pc 建立c个空聚类列表: K1, K2, …,Kc 按照最小距离法则逐个对样本x进行分类: 计算J及用各聚类列表计算聚类均值,并用来作为各聚类新的代表点(更新代表点) 若J不变或代表点未发生变化,则停止。否则转2。 K-均值算法举例 彩色图像分割: K-均值算法的其他考虑 按照与c个代表点的最小距离法对新样本y进行分类,即: 初始划分的方法 更新均值的时机:逐个样本修正法与成批样本修正法 聚类数目的动态决定 ISODATA算法(迭代自组织数据分析算法) ISODATA算法 设有N个样本模式X1,X2,……XN. 第一步:预选NC个聚类中心Z1,Z2,……ZNC ,NC不要求等于希望的聚类数目。 NC个聚类中心也可在N个样本中选择。然后预选下列指标: K:K是希望的聚类中心的数目。 θN :每个聚类中最少的样本数。若某聚类中的样本少θN ,则该聚类不能作为一个独立的聚类,应删去。 θS :一个聚类中样本的标准偏差参数。要求每一个聚类内标准偏差向量的所有分量中的最大分量小于θS ,否则该类应分裂为两类。标准偏差向量的每一分量 等于每个样本的分量与聚类中心对应分量差的平方和平均值。 θC :两聚类中心之间的最小距离。若两类中心之间距离小于θC ,则这两类合并为一类。 L:在一次迭代中允许合并的聚类中心的最大对数。 I:允许迭代的次数。 ISODATA算法 第二步:把N个样本按最近邻规则分配到Nc个聚类中。 第三步:若Sj中的样本数NjθN ,则取消该类,并且NC-1。 第四步:修正各聚类中心。 第五步:计算聚类Sj中各样本到该类聚类中心的平均距离,用 表示: ISODATA算法 第六步:计算全部样本到其所在类聚类中心距离的平均距离。即计算全部样本的总体平均距离,用 表示。 第七步:判决是进行分裂还是进行合并,决定迭代步骤等。 (1)如迭代已达I次,即最后一次迭代,置QC=0,跳到第十一步。 ISODATA算法 (2)若NC≤K/2(聚类中心小于或等于希望数的一半),进入第八步,将已有的聚类分裂。 (3)如果迭代的次数是偶数,或NC≥2K(聚类中心数目大于或等于希望数的两倍),则跳到第十一步,进行合并。否则进入第八步进行分裂。 第八步:计算每个聚类的标准偏差向量,第Sj类的标准偏差向量为: 式中,xij是Sj类样本X的第i个分量,zij是Zj的第i个分量。所以σij是X的第i个分量的标准差,X是n维模式向量。 ISODATA算法 第九步:求每个标准差向量的最大分量,σj的最大分量 记为σjmax ,j=1,2,…,NC. 第十步:在最大分量集 {σjmax ,j=1,2,… NC}中,如有σjmax θS,(即Sj类样本在σjmax对应方向上的标准偏差大于允许的值),同时又满足以下两条之一: (1) 和Nj 2(θN +1) ,即类内平均距离大于总体平均距离,并且Sj类中样本数很大。 (2) NC≤K/2,即聚类数小于或等于希望数目的一半。 本步完成后,跳回第二步,且迭代次数

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档