商务智能实验10报告.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能实验10报告

《数据挖掘与商务智能实验》 实 验 报 告 实验题目: 聚类分析:K-Means 姓名: 王俊 学号: 201430850164 指导教师: 张大斌 实验时间: 2016.11.10 2016年 11 月 10 日 实验题纲 在“建模”卡中选择“K-means”节点,将其连接到数据流中。 步骤2 设置相关参数 点击鼠标右键,选择菜单中“编辑”选项进行参数设置, 在“模型”模块下指定聚类数目为4,勾选“生成距离字段”和“数值”选项,如图所示 在“专家”模块下,勾选“模式”下的“专家”选项,其他保持不变 步骤3 运行结果 本例的聚类的结果如图所示 由图10-4分析结果得到了4类所包含的样本数(分别是2,4,,10,15)以及样本所占的百分比(48.4%,32.3%,12.9%,6.5%) 在图10-5中可以知道每一个变量属于哪一类以及它与类中心的欧氏距离。 从结果图10-5中可以知道31条数据共分为4类,例如上海和北京在第一类中,广西和江西在第二类中,同样的KMD—K-Means中可以知道每一个地区与对应类的中心的之间的距离。 实验分析与扩展练习 扩展训练:请总结K均值聚类的优缺点 答:主要优点:1.?K均值是解决聚类问题的一种经典算法,简单、快速。?对处理大数据集,该算法是相对可伸缩和高效率的。因为它的复杂度是0 (n k t ) , 其中, n 是所有对象的数目, k 是簇的数目, t 是迭代的次数。通常k n 且t n 。?当结果簇是密集的,而簇与簇之间区别明显时, 它的效果较好。 2.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。 主要缺点?:1.在簇的平均值被定义的情况下才能使用,这对于处理符号属性的数据不适用。? 必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 它对于“躁声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。当数据数量不是足够大时,初始化分组很大程度上决定了聚类,影响聚类结果。 对初始化条件敏感。?无法确定哪个属性对聚类的贡献更大。使用算术平均值对outlier不鲁棒。?? 因为基于距离,故结果是圆形的聚类形状。KK均值可以发现不是明显分离的簇。 五、结论与讨论(重点) 通过此次实验课,了解了以下知识点: 1.KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。? 2.K-Means聚类算法主要分为三个步骤: (1)第一步是为待聚类的点寻找聚类中心 (2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去 (3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心 反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止

文档评论(0)

haocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档