- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别报告模版.doc
数学与计算机学院
课程名称: 模式识别
题 目: K-Means聚类
任课老师: 王晓明
年级专业: 2011级计算机应用技术
姓 名: 段文峰
学 号: 212011081203004
时 间: 2011 年 12 月 25 日
目 录
一、K-means聚类介绍 2
二、K-means算法描述 3
三、K-means算法java实现 4
1、实例 4
2、算法的JAVA实现 7
四、K-means算法性能分析 8
1、优势 8
2、弊端 9
五、K-means算法改进 9
1、K的调整 9
2、初始聚类中心的选取 10
3、用类核代替类心 10
六、附录——核心算法的主要源代码 11
参考文献 14
K-Means聚类
一、K-means聚类介绍
K-means算法,也被称为k-平均或k-均值算法(k由来是由于算法实现要用户事先给定要划分成K类),是一种得到最广泛使用的动态聚类算法。 它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点。
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
1、条件及约定
设待分类的模式特征矢量集为:类的数目k是事先取定的。
2、算法思想
算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的达到最优,从而使生成的每个聚类内紧凑,类间独立。
该方法取定 k个类别和选取 k个初始聚类中心,按最小距离原则将各模式分配到 k类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小。
3、划分聚类方法对数据集进行聚类时包括如下二个要点:
(1)选定某种距离作为数据样本间的相似性度量
k-means聚类算法不适合处理离散型属性,对连续型属性比较适合。因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧氏距离。
假设给定的数据集,X中的样本用n 个描述属性A1,A2…An来表示,并且n个描述属性都是连续型属性。数据样本xi=(xi1,xi2,…xin), xj=(xj1,xj2,…xjn)其中, xi1,xi2,…xin和xj1,xj2,…xjn分别是样本xi和xj对应n个描述属性A1,A2,…An的具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)来表示,距离越小,样本xi和xj越相似,差异度越小;距离越大,样本xi和xj越不相似,差异度越大。
欧氏距离公式如下:
(2)选择评价聚类性能的准则函数
k-means聚类算法使用误差平方和准则函数来评价聚类性能。
给定数据集X,其中只包含描述属性,不包含类别属性。假设X包含k个聚类子集X1,X2,…XK;各个聚类子集中的样本数量分别为n1,n2,…,nk;各个聚类子集的均值代表点(也称聚类中心)分别为m1,m2,…,mk,则误差平方和准则函数公式为:
。
二、K-means算法描述
K-means算法步骤:
(1)任选k个模式特征矢量作为初始聚类中心:
z1(0), z2(0) ,……, zk(0) ,令t=0;
(2)将待分类的模式特征矢量集{xi}中的模式逐个按最小距离原则分划给k类中的某一类,即
如果
则判
式中, 表示xi和的中心的距离,上标表示迭代次数。于是产生新的聚类,j=1,2,…,k。
(3)计算重新分类后的各类心
式中,为类中所含模式的个数。
因为这一步采取平均的方法计算调整后各类的中心,且定为k类,故称为K-均值法。
(4)如果,则结束;否则,t=t+1.转至步骤(2)。
三、K-means算法java实现
1、实例
例:已知有20个样本,每个样本有2个特征,数据分布如图1所示,使用k-均值法实现样本分类(k=2)。
样本序号 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 特征X 0 1 0 1 2 1 2 3 6 7 特征Y 0 0 1 1 1 2 2 2 6 6
x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 8 6 7 8 9 7 8 9 8 9 6 7 7 7 7 8 8 8 9 9
图1 例题样本点初始分布
解:第一步(1):令簇的数目k=2,选
您可能关注的文档
最近下载
- 微电子概论(第3版)课件4-1A集成电路版图设计规则 .pptx
- 与时俱进的《义务教育音乐课程标准》PPT课件.ppt VIP
- RoboSim虚拟机器人第十二课-测量距离.pdf VIP
- 房屋出租管理办法.pptx
- 工程造价咨询服务工作的范围、内容、要点、步骤和程序及成果保证体系.docx VIP
- 短视频视觉设计应用短视频制作全流程短视频后期剪辑58课件.pptx VIP
- 2024-2025学年地质版体育与健康一年级全一册教案.pdf VIP
- 部编版语文五年级上册第八单元《读书明智》单元整体设计.pdf VIP
- 医院药品储备定期评估、分析报告及改进措施.docx VIP
- 科学智能白皮书2025.pptx VIP
文档评论(0)