- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K-Means聚类算法;主要内容;1.简介
K-means聚类算法就是基于距离的聚类算法
所谓的基于距离的聚类算法是指采用距离作为相似性度量的评价指标。;2. K-means聚类算法原理
K-means聚类算法的基本思想:
一、指定需要划分的簇的个数k值;
二、随机地选择k个初始数据对象点作为初始的聚类中心;
三、计算其余的各个数据对象到这k个初始聚类中心的距离,把数据对象划归到距离它最近的那个中心所处在的簇类中;
四、调整新类并且重新计算出新类的中心。;2. K-means聚类算法原理;2. K-means聚类算法原理
K-Means算法的工作框架:
;2. K-means聚类算法原理
K-Means算法的特点就是调整一个数据样本后就修改一次聚类中心以及聚类准则函数的值,当n个数据样本完全被调整完后表示一次迭代完成,这样就会得到新的簇和聚类中心的值。
K-Means聚类算法其本质是一个最优化求解的问题。
K-Means算法对聚类中心采取的是迭代更新的方法。;3 K-means聚类算法特点及应用
3.1 K-means聚类算法特点
优点:
(1)算法简单、快速。
(2)对处理大数据集,该算法是相对可伸缩的和高效率的。
(3)算法尝试找出使平方误差函数值最小的k个划分。
缺点:
(1)K-means聚类算法只有在簇的平均值被定义的情况下才能使用。
(2)要求用户必须事先给出要生成的簇的数目k。
(3)对初值敏感。
(4)不适合于发现非凸面形状的簇,或者大小差别很大的簇。
(5)对于“噪声”和孤立点数据敏感。;3 K-means聚类算法特点及应用
3.2 K-means聚类算法应用
(1)K-means 算法在散货船代货运系统中的应用
(2)K-Means 算法在客户细分中的应用;4 小结
本章详细地介绍了K-means算法的基本概念、基本原理,并介绍了该算法的特点和存在的缺陷,最后介绍了K-means算法的应用,从中可以看出K-means算法的应用非常广泛。;k-均值算法 (k-Means);k-均值算法 (k-Means);如何评价聚类结果的质量?;主要内容;改进1: 归一化;改进1: 归一化;改进1: 归一化;k-均值算法性能分析;初始值选择的改进;主要内容;处理孤立点;1.简介
K中心点聚类算法重复迭代,直到每个代表对象都成为它的簇的实际??心点,或最靠中心的对象。
聚类结果的质量用代价函数来评估,该函数用来度量对象与其簇的代表对象之间的平均相异度。;2. K-中心点聚类算法原理
K-中心点聚类算法的基本思想为:选用簇中位置最中心的对象,试图对n个对象给出k个划分,代表对象也被称为是中心点,其他对象则被称为非代表对象。
;2. K-中心点聚类算法原理
在K-中心点聚类算法中需要计算所有非选中对象与选中对象之间的相异度作为分组的依据.一般情况下,数据对象为数值型,选用曼哈顿距离:
此处: 和 是两个n维的数据对象。
;2. K-中心点聚类算法原理
K-中心点聚类算法描述:
输入:簇的数目k和包含n个对象的数据库
输出:k个簇,使得所有对象与其最近中心点的相异度总和最小
(1)任意选择k个对象作为初始的簇中心点,
(2)Repeat
(3)指派每个剩余对象给离他最近的中心点所表示的簇
(4)Repeat
(5)选择一个未被选择的中心点
(6)Repeat;2. K-中心点聚类算法原理
K-中心点聚类算法描述:
(7)选择一个未被选择过的非中心点对象
(8)计算用代替的总代价并记录在S中
(9)Until 所有非中心点都被选择过
(10)Until 所有的中心点都被选择过
(11)If 在S中的所有非中心点代替所有中心点后的计算出总代价有小于0的存在,then找出S中的用非中心点替代中心点后代价最小的一个,并用该非中心点替代对应的中心点,形成一个新的k个中心点的集合;
(12)Until 没有再发生簇的重新分配,即所有的S都大于0.;3. K-中心点聚类算法特点及应用
3.1 K-中心点聚类算法特点
优势:
对噪声点/孤立点不敏感,具有较强的数据鲁棒性;
聚类结果与数据对象点输入顺序无关;
聚类结果具有数据对象平移和正交变换的不变性等。
缺点:
在于聚类过程的高耗时性。;3. K-中心点聚类算法特点及应用
3.2 K-中心点聚
文档评论(0)