改进C- 均值聚类算法.pptVIP

下载本文档

6
0
约4.14千字
约 9页
2017-09-02 发布于安徽
举报
版权申诉

改进C- 均值聚类算法.ppt

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进C- 均值聚类算法 C均值算法属于聚类技术中一种基本的划分方法,具有简单、快速的优点。其基本思想是选取c个数据对象作为初始聚类中心,通过迭代把数据对象划分到不同的簇中,使簇内部对象之间的相似度很大,而簇之间对象的相似度很小。对C均值算法的初始聚类中心选择方法进行了改进,提出了一种从数据对象分布出发动态寻找并确定初始聚类中心的思路以及基于这种思路的改进算法。 1、基于最小距离的初始聚类中心选取法其主要思想： (1) 计算数据对象两两之间的距离; (2) 找出距离最近的两个数据对象,形成一个数据对象集合A1 ,并将它们从总的数据集合U中删除; (3) 计算A1 中每一个数据对象与数据对象集合U 中每一个样本的距离,找出在U中与A1 中最近的数据对象,将它并入集合A1 并从U 中删除, 直到A1 中的数据对象个数到达一定阈值; (4) 再从U中找到样本两两间距离最近的两个数据对象构成A2 ,重复上面的过程,直到形成k个对象集合; (5) 最后对k个对象集合分别进行算术平均,形成k个初始聚类中心。 2、基于取样思想的的改进C均值算法首先对样本数据采用K-means算法进行聚类，产生一组聚类中心。然后将这组聚类中心作为初始聚类中心，在采用K-means算法进行聚类。在此，也可以在第一步中，对样本数据采用K-means算法进行n次聚类运算，每次产生一组聚类中心，对n组聚类中心进行算术平均，从而得到c组初始聚类中心。算法：输入：样本集合data，C；输出：c个聚类中心； K—means（data，k）然后将输出的c个聚类中心作为初始聚类中心再用K-means得出聚类结果； 3、结果 ww1 = Columns 1 through 11 1739.9 1756.8 1803.6 1571.2 1845.6 1692.6 1680.7 1651.5 1702.8 1877.9 1831.5 1675.2 1652 1583.1 1731 1918.8 1867.5 1575.8 1713.3 1639.8 1861 1713.1 2396 1515 2163.1 1735.3 2226.5 2109 1725.1 1570.4 2068.7 1975.3 1604.7 1 3 7 11 17 20 21 26 30 31 33 Columns 12 through 20 1783.6 1597 1598.9 1507.1 1580.1 1962.4 1802.1 1817.4 1860.5 1598 1921.5 1921.1 1556.9 1752.1 1595 1725.8 1927.4 1782.9 2261.3 2126.8 1623.3 1954.5 2463 1836 1966.3 2328.8 1875.1 37 40 41 47 51 52 57 58 59 ww2 = Columns 1 through 11 2352.1 2297.3 2092.6 2205.4 2949.2 2802.9 2063.5 2375 2271.9 2336.3