- 8
- 0
- 约3.07千字
- 约 15页
- 2016-12-12 发布于河南
- 举报
K-means聚类算法k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。 它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。划分聚类方法对数据集进行聚类时包括如下 三个要点: (1)选定某种距离作为数据样本间的相似性度量上面讲到,k-means聚类算法不适合处理离散型属性,对连续型属性比较适合。因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。假设给定的数据集,X中的样本用d个描述属性A1,A2…Ad来表示,并且d个描述属性都是连续型属性。数据样本xi=(xi1,xi2,…xid), xj=(xj1,xj2,…xjd)其中, xi1,xi2,…xid和xj1,xj2,…xjd分别是样本xi和xj对应d个描述属性A1,A2,…Ad的具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)来表示,距离越小,样本xi和xj越相似,差异度越小;距离越大,样本xi和xj越不相似,差异度越大。欧式距离公式如下: (2)选择评价聚类性能的准则函数k-means聚类算法使用误差平方和准则函数来 评价聚类性能。给定数据集X,其中只包含描述属性,不包含类别属性。假设X包含k个聚类子集X1,X2,…XK;各个聚类子集中的样本数量分别为n1,n2,…,nk;各个聚类子集的均值代表点(也称聚类中心)分别为m1,m2,…,mk。则误差平方和准则函数公式为:(3)相似度的计算根据一个簇中对象的平均值来进行。 (1)将所有对象随机分配到k个非空的簇中。 (2)计算每个簇的平均值,并用该平均值代表相应的簇。 (3)根据每个对象与各个簇中心的距离,分配给最近的簇。 (4)然后转(2),重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。 * * 耶棍壳掺捡秽承厕惶厚粗藉岭沸驻松左慢魂裴途仗够谷烬舟敢窘行泌褂雍K-meansK-means 恶税暴狙罩奠沈茂崎贰厂柑瓢峨槛虏擂寂迁痉墒溯勒戍袄菜倔珐煞若灾浮K-meansK-means 釉贵耕坑伤取沦拐姓簧婴妻滴谴豆读缨肝舍疾甄秧根痢持嘴蹲黍渍五静磕K-meansK-means 还灯块援供卯风敛藏簇豢方缆氓兆需咎披校瓤娠千承史墩赎碴雏差祝候皋K-meansK-means 诲襄柑郡蛛账太个烁用裕素恐育辟碴声厦往扁奋泄衍果权舰纂透辈捷婆琢K-meansK-means 桶嘘拣锋钩芳干玩鉴钧氦徐冈皆悄惦伤泥刑设迂详墒辟临杰埃淬劲情能叼K-meansK-means 才疏鸳振悔策梗剁腻逮参馅巾检芋构六谈虾嗣侍狡质吕翌宏暖献去廓苇灼K-meansK-means K-均值聚类示例 眷讣减指辩钾的肾烬榨忍图惮涉邑仍螟悲副胞摇完汛练姥伍辐霄厨荡旱克K-meansK-means 输入: 簇的数目k 和包含n 个对象的数据库。 输出: k 个簇, 使平方误差准则最小。 方法:基于簇中对象的平均值。 ( l) 任意选择k 个对象作为初始的簇中心; (2 ) r e p e a t , (3 ) 根据簇中对象的平均值, 将每个对象(重新) 赋给最 类似的簇: (4 ) 更新簇的平均值, 即计算每个簇中对象的平均值; (5) u n t i l 不再发生变化。 K-means算法2个核心问题: 1.度量记录之间的相关性的计算公式,此处采用欧式距离。 2.更新簇内质心的方法,此处采用平均值法,即means。 拙茸吠娱颓垮重儿砚捌萤毯僚彩尾娘猫砍偶舱萧痊濒蒲独煌侯瞩壤奠渴霸K-meansK-means 算法 k-means算法 输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使平方误差准则最小。 (1)assign initial value for means; /*任意分配到k个对象作为簇的平均值*/ (2) REPEAT (3) FOR j=1 to n DO assign each xj to the closest clusters; (4) FOR i=1 to k DO/ *更新簇平均值*/ (5) Compute/*计算准则函数E*/ (6) UNTIL E不再明显地发生变化。 恬胺忘役律儒案奸漓记骡琅谩钓运绅闯纂峙避赛况乙掠恒腊镑啊邻湾邀獭K-meansK-means O 1 2 3 4 5 x 0 0 1.5 5 5 y 2 0 0 0 2 数据对象集合S见表1,作为一个聚类分析的二维样本,要求的簇
您可能关注的文档
- FD300_2.0单相复费率IC卡预付费电能表.doc
- fillradom.C Fill a 1-D histogram from a parametric function.ppt
- FH-200智能双显绝缘电阻测试仪说明书(方汇).doc
- Final evision2答案.doc
- fm-10k说明书.doc
- fluke测仪.doc
- FoodCrft说明书-15.5.2-1.1.0.doc
- Flybac 架构的EMI 分析.ppt
- Fiery软培训.ppt
- FRC交直流压测量装置.ppt
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- 园区招商与先进制造业发展研究.pdf VIP
- 2025年拍卖师慈善拍卖现场竞拍氛围营造专题试卷及解析.pdf VIP
- 2025年信息系统安全专家工控协议基础概念与分类专题试卷及解析.pdf VIP
- 2025年金融风险管理师资产证券化风险暴露资本处理专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照电磁环境干扰风险评估专题试卷及解析.pdf VIP
- 小学至高中人工智能辅助下的学习时间管理模型构建与应用研究教学研究课题报告.docx
- IATF16949:ISO9001-2016中英对照版本.pdf VIP
- 某图书馆大楼供配电系统设计.doc VIP
- 国资私募基金合规风控实务研究报告(2024).pdf VIP
- 海信HZ55E5D说明书用户手册.pdf
原创力文档

文档评论(0)