K MEANSK均值聚类算法 C均值算法课件.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
算法简介 ? k -means 算法,也被称为 k - 平均或 k - 均 值,是一种得到最广泛使用的聚类算法。 它 是将各个聚类子集内的所有数据样本 的均值作为该聚类的代表点,算法的主 要思想是通过迭代过程把数据集划分为 不同的类别,使得评价聚类性能的准则 函数达到最优,从而使生成的每个聚类 内紧凑,类间独立。这一算法不适合处 理离散型属性,但是对于连续型具有较 好的聚类效果。 1 ? 算法描述 1. 为中心向量 c 1 , c 2 , …, c k 初始化 k 个种子 2. 分组 : ? 将样本分配给距离其最近的中心向量 ? 由这些样本构造不相交( non-overlapping ) 的聚类 3. 确定中心 : ? 用各个聚类的中心向量作为新的中心 4. 重复分组和确定中心的步骤,直至算法收敛 2 算法 k -means 算法 输入:簇的数目 k 和包含 n 个对象的数据库。 输出: k 个簇,使平方误差准则最小。 算法步骤: 1. 为每个聚类确定一个初始聚类中心,这样就有 K 个 初始聚类中心。 2. 将样本集中的样本按照最小距离原则分配到最邻 近聚类 3. 使用每个聚类中的样本均值作为新的聚类中心。 4. 重复步骤 2.3 直到聚类中心不再变化。 5. 结束,得到 K 个聚类 3 2020/3/31 将样本分配给距离它们最近的中心向量,并使目 标函数值减小 2 1 } ,..., 2 , 1 { || || min j n i i k j p x ? ? ? ? ? ? ? i C x i i x C x 1 更新簇平均值 2 1 ? ? ? ? ? ? k i C x i i x x E 计算准则函数 E 4 K-means 聚类算法 5 划分聚类方法对数据集进行聚类时包括如下 三个要点: ? ( 1 )选定某种距离作为数据样本间的相似性度 量 上面讲到, k-means 聚类算法不适合处理离散型 属性,对连续型属性比较适合。因此在计算数据样 本之间的距离时,可以根据实际需要选择欧式距离 、曼哈顿距离或者明考斯距离中的一种来作为算法 的相似性度量,其中最常用的是欧式距离。下面我 给大家具体介绍一下 欧式距离 。 6 假设给定的数据集 , X 中 的样本用 d 个描述属性 A 1 ,A 2 …A d 来表示,并且 d 个描 述属性都是连续型属性。数据样本 x i =(x i1 ,x i2 ,…x id ), x j =(x j1 ,x j2 ,…x jd ) 其中, x i1 ,x i2 ,…x id 和 x j1 ,x j2 ,…x jd 分别是样本 x i 和 x j 对应 d 个描述属性 A 1 ,A 2 ,…A d 的具体取值。样本 xi 和 xj 之 间的相似度通常用它们之间的距离 d(x i ,x j ) 来表示 ,距离越小,样本 x i 和 x j 越相似,差异度越小;距 离越大,样本 x i 和 x j 越不相似,差异度越大。 欧式距离公式如下: ? ? ? ? ? ? ? ? d k jk ik j i x x x x d 1 2 , ? ? total m x X m ,..., 2 , 1 | ? ? 7 ? ( 2 )选择评价聚类性能的准则函数 k-means 聚类算法使用 误差平方和准则函数 来 评价聚类性能。给定数据集 X ,其中只包含描述属 性,不包含类别属性。假设 X 包含 k 个聚类子集 X 1 ,X 2 ,…X K ;各个聚类子集中的样本数量分别为 n 1 , n 2 ,…,n k ; 各个聚类子集的均值代表点(也称聚类中 心)分别为 m 1 , m 2 ,…,m k 。则误差平方和准则函数 公式为: 2 1 ? ? ? ? ? ? k i X p i i m p E 8 ? ( 3 ) 相似度的计算根据一个簇中对象的平均值 来进行。 ? ( 1 )将所有对象随机分配到 k 个非空的簇中。 ? ( 2 )计算每个簇的平均值,并用该平均值代表相 应的簇。 ? ( 3 )根据每个对象与各个簇中心的距离,分配给 最近的簇。 ? ( 4 )然后转( 2 ),重新计算每个簇的平均值。 这个过程不断重复直到满足某个准则函数才停止 。 9 O x y 1 0 2 2 0 0 3 1.5 0 4 5 0 5 5 2 数据对象集合 S 见表 1 ,作为一个聚类分析的二维 样本,要求的簇的数量 k=2 。 (1) 选择 , 为初始的簇中心, 即 , 。 (2) 对剩余的每个对象,根据其与各个簇中心的距 离,将它赋给最近的簇。 对 : 显然 ,故将 分配给 ? ? 2 , 0 1 O ? ? 0 , 0 2 O ? ? 2 , 0 1 1 ? ? O M ? ? 0 , 0 2 2 ? ? O M

文档评论(0)

sunhongz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档