- 19
- 0
- 约4.14千字
- 约 9页
- 2019-03-06 发布于江苏
- 举报
改进C- 均值聚类算法 C均值算法属于聚类技术中一种基本的划分方法,具有简单、快速的优点。其基本思想是选取c个数据对象作为初始聚类中心,通过迭代把数据对象划分到不同的簇中,使簇内部对象之间的相似度很大,而簇之间对象的相似度很小。对C均值算法的初始聚类中心选择方法进行了改进,提出了一种从数据对象分布出发动态寻找并确定初始聚类中心的思路以及基于这种思路的改进算法。 1、基于最小距离的初始聚类中心选取法 其主要思想: (1) 计算数据对象两两之间的距离; (2) 找出距离最近的两个数据对象,形成一个数据对象集合A1 ,并将它们从总的数据集合U中删除; (3) 计算A1 中每一个数据对象与数据对象集合U 中每一个样本的距离,找出在U中与A1 中最近的数据对象,将它并入集合A1 并从U 中删除, 直到A1 中的数据对象个数到达一定阈值; (4) 再从U中找到样本两两间距离最近的两个数据对象构成A2 ,重复上面的过程,直到形成k个对象集合; (5) 最后对k个对象集合分别进行算术平均,形成k个初始聚类中心。 2、基于取样思想的的改进C均值算法 首先对样本数据采用K-means算法进行聚类,产生一组聚类中心。然后将这组聚类中心作为初始聚类中心,在采用K-means算法进行聚类。 在此,也可以在第一步中,对样本数据采用K-means算法进行n次聚类运算,每次产生一组聚类中心,对n组聚类中心进行算术平均,从而得到c组初始聚类中心。 算法: 输入:样本集合data,C; 输出:c个聚类中心; K—means(data,k) 然后将输出的c个聚类中心作为初始聚类中心再用K-means得出聚类结果; 3、结果 ww1 = Columns 1 through 11 1739.9 1756.8 1803.6 1571.2 1845.6 1692.6 1680.7 1651.5 1702.8 1877.9 1831.5 1675.2 1652 1583.1 1731 1918.8 1867.5 1575.8 1713.3 1639.8 1861 1713.1 2396 1515 2163.1 1735.3 2226.5 2109 1725.1 1570.4 2068.7 1975.3 1604.7 1 3 7 11 17 20 21 26 30 31 33 Columns 12 through 20 1783.6 1597 1598.9 1507.1 1580.1 1962.4 1802.1 1817.4 1860.5 1598 1921.5 1921.1 1556.9 1752.1 1595 1725.8 1927.4 1782.9 2261.3 2126.8 1623.3 1954.5 2463 1836 1966.3 2328.8 1875.1 37 40 41 47 51 52 57 58 59 ww2 = Columns 1 through 11 2352.1 2297.3 2092.6 2205.4 2949.2 2802.9 2063.5 2375 2271.9 2336.3
您可能关注的文档
最近下载
- 口腔数字化修复技术30课件.pptx VIP
- 《儿童血压测量规范》解读.pptx
- 中卫焦化厂冷凝鼓风工段初步设计.docx VIP
- 《心理学在管理中的应用》课件.ppt VIP
- 2026年黑龙江民族职业学院单招职业技能考试题库完整答案详解.docx VIP
- 第2课《幸福生活是奋斗出来的》教案-2025-2026学年第二学期三年级道德与法治统编版下册.docx
- 2025广东事业单位真题及答案.docx VIP
- 2026青海省公务员考试常识判断专项练习题有完整答案.docx VIP
- 银行保安服务 投标方案(技术方案).doc
- 2026中国藏语系高级佛学院招聘应届高校毕业生6人备考题库及一套参考答案详解.docx VIP
原创力文档

文档评论(0)