- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.
哈尔滨工业大学
数据挖掘理论与算法实验报告
(2014 年度秋季学期 )
--
.
课程编码
S1300019C
授课教师
高 宏
学生姓名
赵天意
学
号
14S101018
学
院
电气工程及自动化学院
一、实验内容
设计实现 k 均值聚类算法。
二、实验设计
随机生成 2 维坐标点,对点进行聚类,进行 k=2 聚类, k=3 聚类,多次 k=4 聚
类,分析比较实验结果。
三、实验环境及测试数据
实验环境: Windows7 操作系统, Python2.7 IDLE
测试数据:
随机生成 3 个点集,点到中心点距离服从高斯分布:
--
.
集合大小 中心坐标 半径
1 100 5,5 2
2 100 10,6 2
3 100 8,10 2
四、实验过程
编写程序
随机生成测试点集,分别聚成 2, 3, 4 类,观察实验结果
多次 4 聚类,观察实验结果
五、实验结果
初始随机点:
聚类
--
.
迭代 -平方误差
1
2
3
4
5
6
1337
677
639
634
633
633
聚类中心与类中点数
9.06 ,8.29 191
5.05 ,5.01 109
聚类
1
2
3
4
5
6
7
8
9
10
11
12
810
692
690
688
686
681
565
385
369.4
369.8
37
37
0
0
4.99 ,5.05 108,
7.92 ,10.48 93
--
.
10.15 ,6.16 99
聚类
迭代 27
次,平方误差 344.897291273
7.95
,,
10.56
90
4.89
,5.00
103
8.41
,6.31
38
10.75 ,6.1,4
69
多次4聚类
迭代27次
平方误差 352.19
4.95 ,5.03
106
9.79 ,6.03
93
--
.
7.85 ,10.50 90
12.71 ,8.16 11
迭代 8 次 平方误差 356.19
10.15 ,6.16 99
7.92 ,10.48 93
5.54 ,5.01 67
4.09 ,5.10 41
迭代 7 次 平方误差 352.35
10.39 ,6.04 87
4.91 ,4.98 103
8.00 ,10.79 79
7.71 ,7.69 31
六、遇到的困难及解决方法、心得体会
K-Means 初值对最终的聚类结果有影响, 不同初值,可能会有不同的聚类结果,
也就是说, K-Means 收敛于局部最优点
K-Means 趋向于收敛到球形,每类样本数相近
--
.
K-Means 随着 k 的增加,平方误差会降低,但聚类效果未必变好
该例子, 2 聚类误差 633 , 3 聚类 370 ,4 聚类 350 ,可以发现 2 聚类到 3 聚类
误差下降较快, 3 到 4 聚类误差下降较慢,所以 3 是最佳聚类个数。
--
文档评论(0)