网站大量收购独家精品文档,联系QQ:2885784924

大数据挖掘关于某Kmeans算法地研究(含大数据集).doc

大数据挖掘关于某Kmeans算法地研究(含大数据集).doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文案 文档大全 浙江大学算法研究实验报告 数据挖掘 题目:K-means 目录 一、实验内容………………………………………………………5 二、实验目的………………………………………………………7 三、实验方法………………………………………………………7 3.1软、硬件环境说明……………………………………………7 3.2实验数据说明…………………………………………………7 图3-1 ……………………………………………………………7 3.3实验参数说明/软件正确性测试……………………………7 四、算法描述………………………………………………………9 图4-1 ……………………………………………………………10 五、算法实现………………………………………………………11 5.1主要数据结构描述……………………………………………11 图5-1 ……………………………………………………………11 5.2核心代码与关键技术说明……………………………………11 5.3算法流程图……………………………………………………14 六、实验结果………………………………………………………15 6.1实验结果说明…………………………………………………15 6.2实验结果比较…………………………………………………21 七、总结……………………………………………………………23 实验内容 实现K-means算法,其中该算法介绍如下: k-means算法是根据聚类中的均值进行聚类划分的聚类算法。 输入:聚类个数k,以及包含n个数据对象的数据。 输出:满足方差最小标准的k个聚类。 处理流程: Step 1. 从n个数据对象任意选择k个对象作为初始聚类中心; Step 2. 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分; Step 3. 重新计算每个(有变化)聚类的均值(中心对象) Step 4. 循环Step 2到Step 3直到每个聚类不再发生变化为止; k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心,而对于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后,再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,具体定义如下: (1) 其中E为数据库中所有对象的均方差之和,p为代表对象的空间中的一个点,mi为聚类Ci的均值(p和mi均是多维的)。公式(1)所示的聚类标准,旨在使所获得的k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 重点要求:用于聚类的测试级不能仅为单独的一类属性,至少有两种属性值参与聚类。 实验目的 通过实现K-means算法,加深对课本上聚类算法的理解,并对数据集做出较高的要求,以期锻炼我们的搜索查找能力。最后自己实现K-means算法,可以加强我们的编程能力。 实验方法 3.1软、硬件环境说明 采用win7旗舰版(盗版)系统,用vs2010实现 3.2实验数据说明 实验数据,源于google的广告关键词推荐页面,在该页面输入关键词,会出现与该关键词相关的一些信息,包括月均搜索量,关键词价值等等,取出来在经过自己处理,就得到了我们需要的实验数据,包括关键词、月均搜索量、竞争力、估价以及关键词排名,包含两种属性。部分数据如下: 图3-1 3.3实验参数说明/软件正确性测试 我采用了各种数据对程序进行测试,出现一些数组越界bug,修改后再次测试,无问题,测试通过。 算法描述 KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 K-Means聚类算法主要分为三个步骤: (1)第一步是为待聚类的点寻找聚类中心 (2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去 (3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心 反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止 下图展示了对n个样本点进行K-means聚类的效果,这里k取2: (a)未聚类的初始点集 (b)随机选取两个点作为聚类中心 (c)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去 (d)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心 (e)重复(c),计

您可能关注的文档

文档评论(0)

linlin921 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档