商务智能实验10报告.docVIP

下载本文档

34
0
约1.44千字
约 5页
2017-01-24 发布于重庆
举报
版权申诉

商务智能实验10报告.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

商务智能实验10报告

《数据挖掘与商务智能实验》实验报告实验题目：聚类分析：K-Means 姓名：王俊学号： 201430850164 指导教师：张大斌实验时间： 2016.11.10 2016年 11 月 10 日实验题纲在“建模”卡中选择“K-means”节点，将其连接到数据流中。步骤2 设置相关参数点击鼠标右键，选择菜单中“编辑”选项进行参数设置，在“模型”模块下指定聚类数目为4，勾选“生成距离字段”和“数值”选项，如图所示在“专家”模块下，勾选“模式”下的“专家”选项，其他保持不变步骤3 运行结果本例的聚类的结果如图所示由图10-4分析结果得到了4类所包含的样本数（分别是2,4,，10,15）以及样本所占的百分比（48.4%，32.3%，12.9%，6.5%）在图10-5中可以知道每一个变量属于哪一类以及它与类中心的欧氏距离。从结果图10-5中可以知道31条数据共分为4类，例如上海和北京在第一类中，广西和江西在第二类中，同样的KMD—K-Means中可以知道每一个地区与对应类的中心的之间的距离。实验分析与扩展练习扩展训练：请总结K均值聚类的优缺点答：主要优点：1.?K均值是解决聚类问题的一种经典算法，简单、快速。?对处理大数据集，该算法是相对可伸缩和高效率的。因为它的复杂度是0 (n k t ) , 其中, n 是所有对象的数目, k 是簇的数目, t 是迭代的次数。通常k n 且t n 。?当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。 2.K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。主要缺点?：1.在簇的平均值被定义的情况下才能使用，这对于处理符号属性的数据不适用。? 必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。它对于“躁声”和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响。当数据数量不是足够大时，初始化分组很大程度上决定了聚类，影响聚类结果。对初始化条件敏感。?无法确定哪个属性对聚类的贡献更大。使用算术平均值对outlier不鲁棒。?? 因为基于距离，故结果是圆形的聚类形状。KK均值可以发现不是明显分离的簇。五、结论与讨论(重点) 通过此次实验课，了解了以下知识点： 1.KMeans算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。? 2.K-Means聚类算法主要分为三个步骤：(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去(3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数达到要求为止