模式识别第七章非监督分类.pptVIP

下载本文档

8
0
约7.75千字
约 63页
2017-09-04 发布于湖北
举报
版权申诉

模式识别第七章非监督分类.ppt

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别第七章非监督分类

第七章非监督学习方法主要内容 7.1 引言有监督学习（supervised learning)：用已知类别的样本训练分类器，以求对训练集的数据达到某种最优，并能推广到对新数据的分类?? 非监督学习（unsupervised learning) ：样本数据类别未知，需要根据样本间的相似性对样本集进行分类(聚类，clustering)?? 方案对比（1）多维空间投影方法多维空间y中直接划分成单峰区域比较困难，把它投影到一维空间x中简化问题。（1）投影方法算法步骤计算样本y协方差矩阵的最大特征值对应的特征向量u，把样本数据投影到u上，得到v=uTy；用直方图法求边缘概率密度函数p(v)；找到边缘概率密度函数的各个谷点，在这些谷点上作垂直于u的超平面把数据划分成几个子集；如果没有谷点，则用下一个最大的特征值代替；对所得到的各个子集进行同样的过程，直至每个子集都是单峰为止。（2）单峰子集分离的迭代算法（2）单峰子集分离的迭代算法迭代算法步骤对数据集进行初始划分：K1, K2, …,Kc 用Parzen方法估计各聚类的概率密度函数按照最大似然概率逐个对样本xk进行分类：若没有数据点发生类别迁移变化，则停止。否则转2 7.3 类别分离的间接方法两个要点:相似性度量，准则函数相似性度量样本间相似性度量: 特征空间的某种距离度量样本与样本聚类间相似性度量?? 准则函数准则函数：聚类质量的判别标准，常用的最小误差平方和准则?? K-均值算法（k-Means) K-均值算法的训练初始化：选择c个代表点p1, p2, …,pc 建立c个空聚类列表： K1, K2, …,Kc 按照最小距离法则逐个对样本x进行分类：计算J及用各聚类列表计算聚类均值，并用来作为各聚类新的代表点（更新代表点）若J不变或代表点未发生变化，则停止。否则转2。 K-均值算法举例彩色图像分割： K-均值算法的其他考虑按照与c个代表点的最小距离法对新样本y进行分类，即：初始划分的方法更新均值的时机：逐个样本修正法与成批样本修正法聚类数目的动态决定 ISODATA算法(迭代自组织数据分析算法） ISODATA算法设有N个样本模式X1，X2，……XN. 第一步：预选NC个聚类中心Z1，Z2，……ZNC ,NC不要求等于希望的聚类数目。 NC个聚类中心也可在N个样本中选择。然后预选下列指标： K：K是希望的聚类中心的数目。 θN ：每个聚类中最少的样本数。若某聚类中的样本少θN ，则该聚类不能作为一个独立的聚类，应删去。 θS ：一个聚类中样本的标准偏差参数。要求每一个聚类内标准偏差向量的所有分量中的最大分量小于θS ，否则该类应分裂为两类。标准偏差向量的每一分量等于每个样本的分量与聚类中心对应分量差的平方和平均值。 θC ：两聚类中心之间的最小距离。若两类中心之间距离小于θC ，则这两类合并为一类。 L：在一次迭代中允许合并的聚类中心的最大对数。 I：允许迭代的次数。 ISODATA算法第二步：把N个样本按最近邻规则分配到Nc个聚类中。第三步：若Sj中的样本数NjθN ，则取消该类，并且NC－1。第四步：修正各聚类中心。第五步：计算聚类Sj中各样本到该类聚类中心的平均距离，用表示： ISODATA算法第六步：计算全部样本到其所在类聚类中心距离的平均距离。即计算全部样本的总体平均距离，用表示。第七步：判决是进行分裂还是进行合并，决定迭代步骤等。 (1)如迭代已达I次，即最后一次迭代，置QC＝0，跳到第十一步。 ISODATA算法 (2)若NC≤K/2(聚类中心小于或等于希望数的一半)，进入第八步，将已有的聚类分裂。 (3)如果迭代的次数是偶数，或NC≥2K(聚类中心数目大于或等于希望数的两倍)，则跳到第十一步，进行合并。否则进入第八步进行分裂。第八步：计算每个聚类的标准偏差向量，第Sj类的标准偏差向量为：式中，xij是Sj类样本X的第i个分量，zij是Zj的第i个分量。所以σij是X的第i个分量的标准差，X是n维模式向量。 ISODATA算法第九步：求每个标准差向量的最大分量，σj的最大分量记为σjmax ，j＝1,2,…,NC. 第十步：在最大分量集 {σjmax ,j=1,2,… NC}中,如有σjmax θS，(即Sj类样本在σjmax对应方向上的标准偏差大于允许的值），同时又满足以下两条之一： (1) 和Nj 2(θN ＋1) ，即类内平均距离大于总体平均距离，并且Sj类中样本数很大。 (2) NC≤K/2,即聚类数小于或等于希望数目的一半。本步完成后，跳回第二步，且迭代次数

您可能关注的文档

文档评论（0）

dajuhyy + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

模式识别第七章非监督分类.pptVIP