聚类分析—Kmeans聚类.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
河北大学工商学院 Industrial Comerricial College , Hebei University 模式识别 第三章--聚类分析 K-means聚类 * 主要内容 K-means算法 Matlab程序实现 在图像分割上的简单应用 算法的优缺点 初始中心的选取对算法的影响 Kernel K-means算法 * K-means聚类算法 算法描述 为中心向量c1, c2, …, ck初始化k个种子 分组: 将样本分配给距离其最近的中心向量 由这些样本构造不相交( non-overlapping )的聚类 确定中心: 用各个聚类的中心向量作为新的中心 重复分组和确定中心的步骤,直至算法收敛 * K-means聚类算法(续) 分组: 将样本分配给距离它们最近的中心向量,并使目标函数值减小 确定中心: 亦须有助于减小目标函数值,原因: 等式成立的充要条件: * K-means聚类算法(续) 算法的具体过程 从数据集 中任意选取k个赋给初始的聚类中心c1, c2, …, ck; 对数据集中的每个样本点xi,计算其与各个聚类中心cj的欧式距离并获取其类别标号: 按下式重新计算k个聚类中心; 重复步骤2和步骤3,直到达到最大迭代次数为止。 * Matlab程序实现 function [M, j, e] = kmeans(X, K, Max_Its) [N,D]=size(X); I=randperm(N); M=X(I(1:K),:); Mo = M; for n=1:Max_Its for k=1:K Dist(:,k) = sum((X - repmat(M(k,:),N,1)).^2,2); end [i, j]=min(Dist, [], 2); for k=1:K if size(find(j==k))0 M(k, :) = mean(X(find(j==k), :)); end end * Matlab程序实现(续) Z = zeros(N,K); for m=1:N Z(m,j(m)) = 1; end e = sum(sum(Z.*Dist)./N); fprintf(%d Error = %f\n, n, e); Mo = M; end * 在图像分割上的简单应用 例1: 图片:一只遥望大海的小狗; 此图为100 x 100像素的JPG图片,每个像素可以表示为三维向量(分别对应JPEG图像中的红色、绿色和蓝色通道) ; 将图片分割为合适的背景区域(三个)和前景区域(小狗); 使用K-means算法对图像进行分割。 * 在图像分割上的简单应用(续) 分割后的效果 注:最大迭代次数为20次,需运行多次才有可能得到较好的效果。 * 在图像分割上的简单应用(续) 例2: 注:聚类中心个数为5,最大迭代次数为10。 * 算法的优缺点 优点: 思想简单易行; 时间复杂度接近线性; 对大规模数据的挖掘具有高效性和可伸缩性。 缺点: 最终的结果会随初始中心的变化而变化; 算法依赖于用户指定的k值; 各聚类间线性不可分时,K-means算法就会失效。 * 初始中心的选取对算法的影响 棋盘格数据集(Checkerboard data set) 仅使用其中486个正类数据,并将数据变换到[-1,1]之间,分布情况如下图所示: * 初始中心的选取对算法的影响(续) 初始聚类中心均在左下角,即均为[-1,1] 迭代次数:1000 * 初始中心的选取对算法的影响(续) 初始聚类中心均在中心附近 * 初始中心的选取对算法的影响(续) 初始聚类中心在平面内随机选取 * Kernel K-means算法 K-means算法的聚类结果 修改欧氏距离度量 ,即引入基于核函数的距离度量,使聚类可以产生任意形状? * Kernel K-means算法(续) 数学符号 非线性映射: ,将样本从输入空间映射到高维的特征空间。 聚类中心: 注意:①聚类中心的维数与特征空间维数相同,所以可以将其表示为输入样本在特征空间中像的加权和。 ②对聚类中心的更新只需对系数矩阵 进行更新。 * Kernel K-means算法(续) 基于核函数的距离度量: 其中 为核函数,在Kernel K-means算法中通常使用Gaussian核函数: * Kernel K-means算法

文档评论(0)

sandaolingcrh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档