- 24
- 0
- 约 54页
- 2016-03-24 发布于贵州
- 举报
改进的K-mens法及其应用
摘要
改进的K—means法及其应用
专业: 流行病与卫生统计学
硕士研究生 鲁婧婧
指导老师: 骆福添教授
摘要
研究背景
人们对客观事物的研究总是从无认识到有认识,步步深入,渐渐明朗化的。
对事物进行分类则是人类认识世界的基本手段之一。在数据分类不明确时,对其
进行探索性的分类是极为必要的。聚类分析作为一种无监督的分类方法,在分类
方法学中起到了举足轻重的作用。
聚类分析包括很多种,其中K-means法作为快速聚类法(又称动态聚类法)
中最常用的一种,由于在计算速度上具有无可比拟的优势,常被作为大样本聚类
分析的首选方案。其基本原理为:人为地或按照某种标准选择初始凝聚点,依据
样品点到各初始凝聚点的欧氏距离,将样品划分到与其距离最近的类别中,形成
初始分类。再对初始分类进行修正,直到分类比较合理,刁i必再修正为iE。实践
表明,由于该方法在聚类过程中采取距离就近原则,故更倾向于产生大小相等的
球状类。而在实际研究中常存在几个类在“空间”所占容=||}{大小不等的情况。例
如亚健康问题,健康的人大都相似,处于亚健康状态的人却因为症状各彳;相同而
存在较大的变异度。在这种情况下,K.means法常常无法得到令人满意的结果。
本研究通过模拟和实例分析来探讨对jJ:并类在“空n_|J”所占容积(对应于方差)
大小不等的类,如何聚类。町以达到较好的效果。
材料与方法
本研究旨在提出…种改进的K—means法,在对方差不等的类进行聚类时,可
以取得较好的效果。
崽想来源:样品来自两个方差不等的类的可能性不但与该样品与类中心的距
摘要
离有关,还与类内相似度有关。故在每次聚类过程中,对样品与类之间距离的量
化,应考虑类内方差的大小。
基本思想:不同的类相似度可能不同。故在计算样品与类的距离时,依据类
内相似度的大小为其赋予升i同的权重。当类内相似度比较大时,为其赋予较大的
权重。当类内相似度比较小时,为其赋予较小的权重。类内相似度可以通过类内
方差的大小来度量。方差人,说明类内相似度比较小;方差小,则说明类内相似
度比较大。故将权重定义为方差的倒数。
算法描述:
1、初始凝聚点的选择
在选择初始凝聚点的过程中,如果仅仅基于距离因素,往往会找到许多孤立
点作为初始凝聚点。实际上,初始凝聚点除了尽量分散,能使各类被恰当地区分
之外,还应该具有一定的代表性,即具有较高的密度。因此,在初始凝聚点的选
择中,除了考虑其散布程度外,还应考虑密度因素。本文所提出的聚类方法,引
入了每类的方差,若仍以孤立点为初始凝聚点,聚类的效率会受到很大影响。因
此,本文所提出的方法,选择密度法作为初始凝聚点的选择方法。
2、距离的定义
由于考虑了各类方差的影响,故定义样品到各类的“相对距离”而非“绝对
距离”作为聚类准则。所谓相对距离即样品点到类中心的欧氏距离平方与类内方
差之比。考虑到极端点对方差的影响,故此处对方差进行修正。修正方法为选择
与类中心的欧氏距离平方最近的80%的样品点,计算方差。
3、聚类效果的评价
概括地说,对聚类效果的评价主要有三种方法。一种是基于外部的准则,该
准则基于数据集上的。个预定义的结构来评价聚类算法的结果。另外一种是基…J二
内部的准则,即利用数据集本身的特征来评价聚类结果。第三种是相对准则,即
在同一个数据集上,用同一种聚类算法但参数取值不同的多次聚类结果的比较来
进行算法的评价。
基于以上各准则的评价指标很多,且各有优缺点。本研究采用的模拟数据和
实际数据为已知分类的数据,故可采用外部准则对其进行评价。聚类准确度定义
为分类结果与预定义类别一致的个体数与参与聚类的全部个体数的比。该指标容
易理解,是对聚类结果进行评价的一个常用外部评价指标。但是聚类结果中所给
II
摘要
出的类标签,与金标准并无明确的对应关系,故该指标如何计算十分模糊。本研
究利用SAS软件编写程序,寻找聚类结果与金标
原创力文档

文档评论(0)