- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
攻读硕士学位研究生试卷(作业)封面
( 2015 至 2016 学年度第一学期)
题 目 论文选读
科 目 聚类分析中K-means算法综述
姓 名 王苑茹
专 业 计算机技术
入学年月 2015年8月
简短评语
成绩: 授课教师签字:
聚类分析中K-means算法综述
摘要:聚类分析是数据挖掘中一个极其重要的研究方向,是一个将数据划分成簇的方法或手段。聚类分析可广泛利用在商务智能,Web搜索,生物学以及图像模式识别等众多方面。本文主要叙述聚类分析中的K-means聚类算法,总结了K-means聚类算法的研究现状,并针对K-means算法的相关改进做了综述。
关键词:K-means聚类算法;数据子集;聚类中心;相似性度量和距离矩阵
Overview of K-means algorithm in clustering analysis
Abstract:Clustering is major field in data mining which also is an important method of data partition or grouping. Clustering now has been applied into various ways in business intelligence,Web classification,biology,market and so on.In this paper, we introduce the spatial clustering rules,At the same time, the classical K-means algorithm is describe,And some related improvements to K-means algorithm are summarized.
Key words: K-means clustering algorithm; number of clusters K; cluster initialization; distance metric
1、引言
K-means聚类算法是1955年由Steinhaus 、1957年 Lloyed、1965年 Ball Hall、1967年 McQueen分别在他们各自研究的不同的科学领域独立提出的。空间聚类分析方法是空间数据挖掘理论中一个重要的领域,是从海量数据中发现知识的一个重要手段。k-means算法是空间聚类算法中应用非常广泛的算法,同时它也在聚类分析中起着重要作用。日益丰富的空间和非空间数据收集存储于空间数据库中,随着空间数据的不断膨胀,海量的空间数据的大小、复杂性都在快速增长,远远超出了人们的解译能力,从这些空间数据中发现邻域知识迫切需求产生一个多学科、多邻域综合交叉的新兴研究邻域,空间数据挖掘技术应运而生。虽然k-means聚类算法被提出已经快60年了,但是目前仍然是应用最为广泛的划分聚类算法之一。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。
本文主要叙述聚类分析中的K-means聚类算法,总结了K-means聚类算法的研究现状,并针对K-means算法的相关改进做了综述。
2、经典K-means算法
2.1 K-means算法
k-means 聚类算法是一种基于形心的划分技术,是数据挖掘领域最为常用的聚类方法之一,最初起源于信号处理领域。它的目标是划分整个样本空间为若干个子空间,每个子空间中的样本点距离该空间中心点平均距离最小。因此,kmeans是划分聚类的一种。
k-means k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
大体上说,k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度,分别将它们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心;不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。 k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能
您可能关注的文档
- 成教用舌诊重点.ppt
- 行动学习“群策群力”方法剖析.ppt
- 成套开关柜二次布线工艺示范讲解重点.ppt
- 白酒分类酒类知识培训讲座重点.ppt
- 白老师工作室成语复习重点.doc
- 成品试验检验规范重点.doc
- 行为规范教育主题班会剖析.ppt
- 花卉园艺师知识模拟试卷及答案5剖析.doc
- 成全一棵树重点.ppt
- 常用手术体位重点.ppt
- 高中政治课堂教学中的政治参与实践策略探讨教学研究课题报告.docx
- 小学语文项目式学习在课文朗读教学中的实践教学研究课题报告.docx
- 小学美术课堂中儿童创意表现力的培养策略探究教学研究课题报告.docx
- 高中信息技术教学与学生信息素养提升策略研究教学研究课题报告.docx
- 小学英语教学中跨文化交际能力培养与心理健康教育结合教学研究课题报告.docx
- 小学数学估算能力与学业成绩相关性分析及教学启示教学研究课题报告.docx
- 糖画在高中体育动作要领教学中的创新应用教学研究课题报告.docx
- 高中语文课堂互动式教学的思维导图辅助教学实践研究教学研究课题报告.docx
- 初中信息技术课程中编程设计对学生创造性思维的培养研究教学研究课题报告.docx
- 体育活动在提高学生身体素质中的作用分析教学研究课题报告.docx
文档评论(0)