- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
k--mean聚类算法的改进与应用
lllll1
K.means聚类算法的改进与应用
年级:2012级导师:张师超教授研究生:许允栋
专业:计算机应用技术方向:数据挖掘
摘要
伴随着计算机和网络技术的迅猛发展和普及,加之数据库和数据库管理技术的巨大发
展和广泛应用,使得数据呈爆炸性增长。如何从这些庞大的数据中发掘出有价值的信息便
成为了‘个非常重要的问题,数据挖掘技术在这样的背景之下应运而生。数据挖掘就是从
庞大的数击|:j中发掘出有用的信息或知识,使决策更加科学。作为一种无监督的方法,聚类
分析能够在不具备先验知识的情况下,把一个数据集划分成若干个子集,每个子集是一个
簇,使得簇中的对象彼此相似,但跟其他簇中的对象不相似。近年来,聚类分析技术不断
的发展和完善,已经在许多领域得到广泛的应用。
当前聚类的算法有很多,其中K.means算法因为操作简单、高效、伸缩性较好而得到
J。泛的应用。但是K.means算法也有很多缺点,如聚类结果对初始聚类中心非常敏感,对
初值选择的依赖、存在死单元等问题。针对以上缺点,本文提出一种改进的K.means算法,
既能获得较好的聚类效果,还能保证改进后算法的线性时间复杂度。本文对初始聚类中心
的选择进行优化,簇的中心数量(k)将像传统K。means算法一样由用户设定,将整个空
M划分成符f二二子空间,统计每一个子空间内数据点的数目,选取数据点最多的前几个子空
|、IfJ作为彰u始聚类中心,如果存在不同子空间其数据点数量相同,则把不同的子空间强制合
并。本义还定义了不同簇的中心之间的阈值距离,用以对数据点到簇的中心的距离进行比
较,这样町以减少计算数据点与簇的中心之间距离的工作量。本文选用UCI机器学习数据
库的数拱i进行对比实验,从而进一步说明了改进后的算法的准确性和高效性。
本文针对K.means算法的图像分割应用进行了深入的研究。对一种图像区域分割方法
进行详细介绍。该方法首先对图像的彩色空间进行选择,接着抽取图像的像素点的颜色、
纹理及位置等特征,形成特征空间向量;然后进行聚类以及图像的区域分割;最后抽取图
像区域的特征。本文详细介绍了图像分割的方法,根据图像的分割算法编写代码并实验运
行,最后给f士j实验结果。
关键词:聚类分析;K.means算法;图像分割;数据挖掘
Im and ofK·-means
provementapplication clustering
algorithm
Grade:2012 Tutor:ProfessorShichaoName-Xu
Zhang Yundong
Direction:Data
Major:Computer Research Mining
ApplicationTechnology
Abstract
Withthe and of andnetwork
rapiddevelopmentpopularizationcomputer
andwide ofthe anddatabase
alsothe database management
greatdevelopmentapplication
now valuableinformationfrommassivedatahas
technology,dataexplosivelyincrease.
文档评论(0)