K MEANSK均值聚类算法 C均值算法课件.ppt

下载文档 降价啦

0
0
约4.38千字
约 20页
2020-07-02 发布于天津
举报
版权申诉
保障服务

K MEANSK均值聚类算法 C均值算法课件.ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

算法简介 ? k -means 算法，也被称为 k - 平均或 k - 均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。 1 ? 算法描述 1. 为中心向量 c 1 , c 2 , …, c k 初始化 k 个种子 2. 分组 : ? 将样本分配给距离其最近的中心向量 ? 由这些样本构造不相交（ non-overlapping ）的聚类 3. 确定中心 : ? 用各个聚类的中心向量作为新的中心 4. 重复分组和确定中心的步骤，直至算法收敛 2 算法 k -means 算法输入：簇的数目 k 和包含 n 个对象的数据库。输出： k 个簇，使平方误差准则最小。算法步骤： 1. 为每个聚类确定一个初始聚类中心，这样就有 K 个初始聚类中心。 2. 将样本集中的样本按照最小距离原则分配到最邻近聚类 3. 使用每个聚类中的样本均值作为新的聚类中心。 4. 重复步骤 2.3 直到聚类中心不再变化。 5. 结束，得到 K 个聚类 3 2020/3/31 将样本分配给距离它们最近的中心向量，并使目标函数值减小 2 1 } ,..., 2 , 1 { || || min j n i i k j p x ? ? ? ? ? ? ? i C x i i x C x 1 更新簇平均值 2 1 ? ? ? ? ? ? k i C x i i x x E 计算准则函数 E 4 K-means 聚类算法 5 划分聚类方法对数据集进行聚类时包括如下三个要点： ? （ 1 ）选定某种距离作为数据样本间的相似性度量上面讲到， k-means 聚类算法不适合处理离散型属性，对连续型属性比较适合。因此在计算数据样本之间的距离时，可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量，其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。 6 假设给定的数据集， X 中的样本用 d 个描述属性 A 1 ,A 2 …A d 来表示，并且 d 个描述属性都是连续型属性。数据样本 x i =(x i1 ,x i2 ,…x id ), x j =(x j1 ,x j2 ,…x jd ) 其中， x i1 ,x i2 ,…x id 和 x j1 ,x j2 ,…x jd 分别是样本 x i 和 x j 对应 d 个描述属性 A 1 ,A 2 ,…A d 的具体取值。样本 xi 和 xj 之间的相似度通常用它们之间的距离 d(x i ,x j ) 来表示，距离越小，样本 x i 和 x j 越相似，差异度越小；距离越大，样本 x i 和 x j 越不相似，差异度越大。欧式距离公式如下： ? ? ? ? ? ? ? ? d k jk ik j i x x x x d 1 2 , ? ? total m x X m ,..., 2 , 1 | ? ? 7 ? （ 2 ）选择评价聚类性能的准则函数 k-means 聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集 X ，其中只包含描述属性，不包含类别属性。假设 X 包含 k 个聚类子集 X 1 ,X 2 ,…X K ；各个聚类子集中的样本数量分别为 n 1 ， n 2 ,…,n k ; 各个聚类子集的均值代表点（也称聚类中心）分别为 m 1 ， m 2 ,…,m k 。则误差平方和准则函数公式为： 2 1 ? ? ? ? ? ? k i X p i i m p E 8 ? （ 3 ）相似度的计算根据一个簇中对象的平均值来进行。 ? （ 1 ）将所有对象随机分配到 k 个非空的簇中。 ? （ 2 ）计算每个簇的平均值，并用该平均值代表相应的簇。 ? （ 3 ）根据每个对象与各个簇中心的距离，分配给最近的簇。 ? （ 4 ）然后转（ 2 ），重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。 9 O x y 1 0 2 2 0 0 3 1.5 0 4 5 0 5 5 2 数据对象集合 S 见表 1 ，作为一个聚类分析的二维样本，要求的簇的数量 k=2 。 (1) 选择，为初始的簇中心，即，。 (2) 对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。对：显然，故将分配给 ? ? 2 , 0 1 O ? ? 0 , 0 2 O ? ? 2 , 0 1 1 ? ? O M ? ? 0 , 0 2 2 ? ? O M