聚类分析—Kmeans聚类.pptVIP

下载本文档

61
0
约2.32千字
约 22页
2019-11-09 发布于广东
举报
版权申诉

聚类分析—Kmeans聚类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

河北大学工商学院 Industrial Comerricial College , Hebei University 模式识别第三章--聚类分析 K-means聚类 * 主要内容 K-means算法 Matlab程序实现在图像分割上的简单应用算法的优缺点初始中心的选取对算法的影响 Kernel K-means算法 * K-means聚类算法算法描述为中心向量c1, c2, …, ck初始化k个种子分组: 将样本分配给距离其最近的中心向量由这些样本构造不相交（ non-overlapping ）的聚类确定中心: 用各个聚类的中心向量作为新的中心重复分组和确定中心的步骤，直至算法收敛 * K-means聚类算法（续）分组: 将样本分配给距离它们最近的中心向量，并使目标函数值减小确定中心: 亦须有助于减小目标函数值，原因：等式成立的充要条件： * K-means聚类算法（续）算法的具体过程从数据集中任意选取k个赋给初始的聚类中心c1, c2, …, ck；对数据集中的每个样本点xi，计算其与各个聚类中心cj的欧式距离并获取其类别标号：按下式重新计算k个聚类中心；重复步骤2和步骤3，直到达到最大迭代次数为止。 * Matlab程序实现 function [M, j, e] = kmeans(X, K, Max_Its) [N,D]=size(X); I=randperm(N); M=X(I(1:K),:); Mo = M; for n=1:Max_Its for k=1:K Dist(:,k) = sum((X - repmat(M(k,:),N,1)).^2,2); end [i, j]=min(Dist, [], 2); for k=1:K if size(find(j==k))0 M(k, :) = mean(X(find(j==k), :)); end end * Matlab程序实现（续） Z = zeros(N,K); for m=1:N Z(m,j(m)) = 1; end e = sum(sum(Z.*Dist)./N); fprintf(%d Error = %f\n, n, e); Mo = M; end * 在图像分割上的简单应用例1：图片：一只遥望大海的小狗；此图为100 x 100像素的JPG图片，每个像素可以表示为三维向量（分别对应JPEG图像中的红色、绿色和蓝色通道）；将图片分割为合适的背景区域（三个）和前景区域（小狗）；使用K-means算法对图像进行分割。 * 在图像分割上的简单应用（续）分割后的效果注：最大迭代次数为20次，需运行多次才有可能得到较好的效果。 * 在图像分割上的简单应用（续）例2：注：聚类中心个数为5，最大迭代次数为10。 * 算法的优缺点优点：思想简单易行；时间复杂度接近线性；对大规模数据的挖掘具有高效性和可伸缩性。缺点：最终的结果会随初始中心的变化而变化；算法依赖于用户指定的k值；各聚类间线性不可分时，K-means算法就会失效。 * 初始中心的选取对算法的影响棋盘格数据集(Checkerboard data set) 仅使用其中486个正类数据，并将数据变换到[-1,1]之间，分布情况如下图所示： * 初始中心的选取对算法的影响（续）初始聚类中心均在左下角，即均为[-1,1] 迭代次数：1000 * 初始中心的选取对算法的影响（续）初始聚类中心均在中心附近 * 初始中心的选取对算法的影响（续）初始聚类中心在平面内随机选取 * Kernel K-means算法 K-means算法的聚类结果修改欧氏距离度量，即引入基于核函数的距离度量，使聚类可以产生任意形状？ * Kernel K-means算法（续）数学符号非线性映射：，将样本从输入空间映射到高维的特征空间。聚类中心：注意：①聚类中心的维数与特征空间维数相同，所以可以将其表示为输入样本在特征空间中像的加权和。 ②对聚类中心的更新只需对系数矩阵进行更新。 * Kernel K-means算法（续）基于核函数的距离度量：其中为核函数，在Kernel K-means算法中通常使用Gaussian核函数： * Kernel K-means算法