- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学 海 无 涯
K-means 聚类最优k值的选取
最近做了一个数据挖掘的项目,挖掘过程中用到了K-means 聚类方法,但是由于
根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数,
所以,我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最
佳聚类数。为此,我查阅了大量资料和博客资源,总结出主流的确定聚类数k 的
方法有以下两类。
1.手肘法
1.1 理论
手肘法的核心指标是SSE(sum of the squared errors,误差平方和) ,
其中,Ci 是第i 个簇,p 是Ci 中的样本点,mi 是Ci 的质心(Ci 中所有样本的均
值),SSE 是所有样本的聚类误差,代表了聚类效果的好坏。
手肘法的核心思想是:随着聚类数k 的增大,样本划分会更加精细,每个簇
的聚合程度会逐渐提高,那么误差平方和SSE 自然会逐渐变小。并且,当k 小
于真实聚类数时,由于k 的增大会大幅增加每个簇的聚合程度,故SSE 的下降
幅度会很大,而当k 到达真实聚类数时,再增加k 所得到的聚合程度回报会迅速
变小,所以 SSE 的下降幅度会骤减,然后随着k 值的继续增大而趋于平缓,也
就是说SSE 和k 的关系图是一个手肘的形状,而这个肘部对应的k 值就是数据
的真实聚类数。当然,这也是该方法被称为手肘法的原因。
1.2 实践
我们对预处理后数据.csv 中的数据利用手肘法选取最佳聚类数k 。具体做法是让
k 从 1 开始取值直到取到你认为合适的上限(一般来说这个上限不会太大,这里
我们选取上限为8),对每一个k 值进行聚类并且记下对于的SSE,然后画出k 和
SSE 的关系图(毫无疑问是手肘形),最后选取肘部对应的k 作为我们的最佳聚
类数。python 实现如下:
[python]
1. import pandas as pd
学 海 无 涯
2. from sklearn.cluster import KMeans
3. import matplotlib.pyplot as plt
4.
5. df_features = pd.read_csv(rC:\预处理后数据.csv,encoding=gbk) # 读入数
据
6. 利用SSE 选择k
7. SSE = [] # 存放每次结果的误差平方和
8. for k in range(1,9):
9. estimator = KMeans(n_clusters=k) # 构造聚类器
10. estimator.fit(df_features[[R,F,M]])
11. SSE.append(estimator.inertia_)
12. X = range(1,9)
13. plt.xlabel(k)
14. plt.ylabel(SSE)
15. plt.plot(X,SSE,o-)
16. plt.show()
画出的k 与SSE 的关系图如下:
显然,肘部对于的k 值为4 ,故对于这个数据集的聚类而言,最佳聚类数应该
选4
2. 轮廓系数法
2.1 理论
学 海 无 涯
该方法的核心指标是轮廓系数(Silhouette Coefficient ),某个样本点Xi 的轮廓
系数定义如下:
其中,a 是Xi 与同簇的其他样本的平均距离,称为凝聚度,b 是Xi 与最近簇中
所有样本的平均距离,称为分离度。而最近簇的定义是
其中p 是某个簇Ck 中的样本。事实上,简单点讲,就是用Xi 到某个簇所有样
本平均距离作为衡量该点到该簇的距离后,选择离Xi 最近的一个簇作为最近簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。平均轮廓系
数的取值范围为[-1,1],且簇内样本的距离越近,簇间样本距离越远,平均轮廓系
数越大,聚类效果越好。那么,很自然地,平均轮廓系数最大的k 便是最佳聚类
数。
2.2 实践
我们同样使用2.1 中的数据集,同样考虑k 等于1 到8 的情况,对于每个k 值进
行聚类并且求出相应的轮
您可能关注的文档
- 2018年4月思想汇报.pdf
- 2018年全国统一高考数学试卷(文科)(全国一卷).pdf
- 2018年全国统一高考英语试卷(全国二卷).pdf
- 2019年10月积极分子思想汇报.pdf
- 2019年3月入党积极分子思想汇报.pdf
- 2019年3月思想汇报.pdf
- 2019年全国统一高考英语试卷(全国一卷).pdf
- 2020上半年 管理学原理·平时作业.pdf
- 2020上半年《生产运作管理》作业.pdf
- 2020东城高三物理一模.pdf
- 深度解析(2026)《SNT 2497.23-2010 进出口危险化学品安全试验方法 第 23 部分:细胞器的分离实验方法》.pptx
- 深度解析(2026)《SNT 2517-2010 进境羽毛羽绒检疫操作规程》.pptx
- 深度解析(2026)《SNT 2755.2-2011 出口工业产品企业分类管理 第 2 部分:企业分类基本要求》.pptx
- 深度解析(2026)《SNT 2782-2011 原油中盐含量的测定 电测法》.pptx
- 深度解析(2026)《SNT 3016-2011 石脑油中汞含量测定 冷原子吸收光谱法》.pptx
- 深度解析(2026)《ISOTS 19567-12016 Photography — Digital cameras — Texture reproduction measurements — Part 1 Freque标准解读.pptx
- 深度解析(2026)《SNT 3082.5-2012 出口烟花爆竹产品检验规范 第 5 部分:喷花类》.pptx
- 深度解析(2026)《SNT 3086-2012 出境活鳗现场检疫监管规程》.pptx
- 深度解析(2026)《ISOTR 173022015 Nanotechnologies — Framework for identifying vocabulary development for nanotechnol标准解读.pptx
- 深度解析(2026)《SNT 2982-2011 牙鲆弹状病毒病检疫技术规范》.pptx
原创力文档


文档评论(0)