n个样本自底向上逐步合并一类-read.ppt

下载文档 降价啦

3
0
约3.04千字
约 30页
2017-09-04 发布于天津
举报
版权申诉
保障服务

n个样本自底向上逐步合并一类-read.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

n个样本自底向上逐步合并一类-read

模式识别理论及应用Pattern Recognition - Methods and Application 第七章非监督学习方法内容目录 7.1 引言有监督学习（supervised learning)：用已知类别的样本训练分类器，以求对训练集的数据达到某种最优，并能推广到对新数据的分类?? 非监督学习（unsupervised learning) ：样本数据类别未知，需要根据样本间的相似性对样本集进行分类(聚类，clustering)?? 非监督学习方法大致分为两大类：?? 基于概率密度函数估计的方法?? 基于样本间相似性度量的方法方案对比 7.2 单峰子集的分离方法思想：把特征空间分为若干个区域，在每个区域上混合概率密度函数是单峰的，每个单峰区域对应一个类一维空间中的单峰分离: 对样本集KN={xi}应用直方图方法估计概率密度函数，找到概率密度函数的峰以及峰之间的谷底，以谷底为阈值对数据进行分割一维空间中的单峰子集分离多维空间投影方法多维空间y中直接划分成单峰区域比较困难，把它投影到一维空间x中简化问题。确定合适的投影方向u：使投影{x=uTy}的方差最大，方差越大，类之间分离的程度也可能越大?? 样本协方差矩阵的最大特征值对应的特征向量满足这样的要求存在问题：这样投影有时并不能产生多峰的边缘密度函数投影方法举例投影方法算法步骤计算样本y协方差矩阵的最大特征值对应的特征向量u，把样本数据投影到u上，得到v=uTy 用直方图法求边缘概率密度函数p(v) 找到边缘概率密度函数的各个谷点，在这些谷点上作垂直于u的超平面把数据划分成几个子集如果没有谷点，则用下一个最大的特征值代替对所得到的各个子集进行同样的过程，直至每个子集都是单峰为止灰度图像二值化算法灰度图像阈值: 单峰子集分离的迭代算法迭代算法步骤对数据集进行初始划分：K1, K2, …,Kc 用Parzon方法估计各聚类的概率密度函数按照最大似然概率逐个对样本xk进行分类：若没有数据点发生类别迁移变化，则停止。否则转2 7.3 类别分离的间接方法两个要点:相似性度量，准则函数相似性度量样本间相似性度量: 特征空间的某种距离度量样本与样本聚类间相似性度量?? 准则函数准则函数：聚类质量的判别标准，常用的最小误差平方和准则?? C-均值算法（k-Means, k-均值) C-均值算法的训练初始化：选择c个代表点p1, p2, …,pc 建立c个空聚类列表： K1, K2, …,Kc 按照最小距离法则逐个对样本x进行分类：计算J及用各聚类列表计算聚类均值，并用来作为各聚类新的代表点（更新代表点）若J不变或代表点未发生变化，则停止。否则转2。 C-均值算法举例彩色图像分割： C-均值算法的其他考虑按照与c个代表点的最小距离法对新样本y进行分类，即：初始划分的方法更新均值的时机：逐个样本修正法与成批样本修正法聚类数目的动态决定样本与聚类间相似性度量样本x与聚类Ki间相似性度量: 聚类的表示：样本集Ki ={xj(i)} 用一个所谓的“核函数”Ki，如样本集的某种统计量样本与聚类间相似性度量基于样本与聚类间相似性度量的动态聚类算法初始化：选择c个初始聚类K1, K2, …, Kc 建立c个空聚类列表： L1, L2, …, Lc 按照最相似法则逐个对样本进行分类：计算J并用{Li }更新各聚类核函数{Ki } 若J不变则停止。否则转2 正态核函数的聚类算法正态核函数，适用于各类为正态分布近邻函数准则算法近邻函数：样本间相似性的度量如果yi是yj的第I个近邻， yj是yi的第K个近邻 aij = I + K ? 2 , i≠j 近邻函数使得密度相近的点容易聚成一类同一类中的点之间存在“连接”。连接损失就定义为两点之间的近邻函数aij 一个点和其自身的连接损失aii=2N，以惩罚只有一个点的聚类不同类的点不存在连接，连接损失aii=0 总类内损失：两类间最小近邻函数值第i类和第j类间最小近邻函数值定义为：近邻函数准则总类间损失： 7.4 分级聚类方法划分序列：N个样本自底向上逐步合并一类：每个样本自成一类（划分水平1） K水平划分的进行：计算已有的c=N-K+2个类的类间距离矩阵D(K-1)=[dij](K-1)，其最小元素记作d(K-1)，相应的两个类合并成一类重复第2步，直至形成包含所有样本的类（划分水平N）划分处于K水平时，类数c=N-K+1，类间距离矩阵D(K)=[dij](K)，其最小元素记作d(K) 如果d(K) 阈值dT，则说明此水平上的聚类是适宜的分级聚类树表示方法两聚类间的距离度量聚类Ki与Kj间的距离度量 7.5 聚类中的问题