一种多聚类中心的划分方法.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种多聚类中心的划分方法 物理或提取对象的集合分为与对象类似的许多类的过程,称为集合类。 聚类的典型应用有:在商务上, 聚类能帮助市场分析人员从客户基本库中发现不同的客户群;在生物上, 聚类能用于推导植物和动物的分类, 并可对其基因进行分类, 以获取对种群中固有结构的认识;在地理上, 聚类用于地球观测数据库中相似地区的确定 此外, 聚类分析可以作为其他算法 (如分类和归纳等) 的预处理步骤, 这些算法再在生成的簇上进行处理. 聚类中划分方法主要是采用一种迭代重定位技术, 尝试通过对象在划分间的移动来改进划分.划分的聚类方法主要优点是, 应用范围广泛, 且其收敛速度快, 即算法时间复杂度较小.由于上述优点, 划分方法能够很容易的扩展用于大规模数据集. 代表性的算法为k-means.k-means算法受处理数据对象的限制较多, 倾向于识别凸形分布、大小相近、密度相近的聚类 为使这种简单高效的算法适用于各种应用, 很多改良的k-means算法被提出, 文献[8]采用基于密度的最大最小距离法, 使其准确性获得提高;文献[9]通过对数据集的多次采样, 选取最终较优的初始聚类中心;针对局部最优值问题, 文献[10]提出了一种基于初始化种子选择中心点的kmeans算法, 并命名为k-means++;此外, 很多改良的算法被提出 为解决非球状、不规则数据分布的聚类问题, 本文提出一种多聚类中心的划分方法, 此算法能够处理不规则分布数据的聚类问题, 同时结合划分中时间复杂度低的优势, 使算法能有效的、快速的对任意形状的大数据进行聚类, 取得良好的效果. 1 聚类中心聚类 以划分算法k-means为代表, k-means聚类算法是对空间中的n个数据进行聚类, 利用距离公式, 对每一个数据点进行判断, 把最靠近聚类中心的类作为归属对象, 然后计算调整该簇的聚类中心, 迭代执行判断计算直至满足准则函数 (常采用误差平方和) 或最大迭代次数, 得到聚类结果. 距离公式定义为: 其中:x 准则函数定义为: 基本步骤是: 1) 指定聚类数k, 同时随机指定k初始聚类中心; 2) 判断每个数据点到每个聚类中心的距离, 将其划分到最近的一个簇中; 3) 统计每一类的数据, 计算平均值作为新的聚类中心; 4) 重复2) 、3) 步骤, 知道准则函数 (2) 小于某一阈值, 或者达到最大的迭代次数. k-means算法尝试找出使平方误差和最小的k个划分.当结果簇是密集的, 而簇与簇之间的区别明显时, 效果最好.其时间复杂度是o (nkt) (t是迭代次数) , 在处理大数据时, 该算法相对可伸缩和高效率. 但是, 原始的k-means算法按照最短距离划分, 其结果是将数据按照两中心直线的垂直平分线分开.对数据分布不规则的以及簇规模大小相差较大的聚类问题, k-means聚类的结果是错误的不可接受的. 2 多个聚类中心的聚类划分 针对k-means聚类算法无法解决的规模差异大、分布不规则的聚类问题, 本文提出一种多中心的划分方法.即, 每一类中有多个而非传统的一个聚类中心, 在进行数据划分时, 以距离簇中的最短一个中心点为准来判断该点的归属问题. 多个聚类中心的设定与判断数据的位置有关.首先随机指定k个初始的聚类中心, 判断数据与k个聚类中心的距离, 将其划分到较近的簇中, 同时, 如果该距离大于某一阈值£, 则增加改点为该类的另外一个聚类中心. 2.1 聚类分析的聚类划分 阈值的设定可以有两种方法, 一种是人为指定, 凭经验或者数据的大致范围来设定一个阈值.第二种方法是由算法自动计算.方法是, 随机从数据集中选出2×k个数据, 然后计算两两之间的距离, 从大到小排序, 选取前k个距离d 如果数据集定义为N, 聚类的类定义为A, B, …则有: 其中:A 簇i的聚类中心为: c 其中:若c 距离判断函数可以定义为: 在划分中, 距离公式的重新定义可以避免不规则分布数据依据与单个聚类中心直线距离判断所造成的错误划分, 使数据根据簇中较近中心的距离来进行归属问题的判断. 表示在判断数据归属时, 以簇中距离数据点最近的中心为目标计算距离. 准则函数修改为: m 若, p、q是最小生成树上的相邻两点, 定义为: pψq, 或qψp (p、q相邻) 达到最小.为了简便, 可以做所有中心点的最小生成树, 然后将k-1条最大的边断开 (排除噪声点与孤立点后) , 分为k个大簇, 若其中有e个孤立点, 则再将最小生成树的e个大路径断开以完成大簇的分割. 2.2 小类中心的识别 孤立点或噪声数据一般是离群点, 即和样本数据的相对距离较远, 因此在增加小类的过程中, 这些点或者其中一个会被增加为某一簇的小类中心, 由于它周围点较少或只有它本身的缘故, 这些小类的聚类中心不再移动,

文档评论(0)

lgjllzx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档