- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 42卷 第 4期 太 原 理 工 大 学 学 报 Vol|42 No.4
2011年 7月 JOURNALOFTAIYUAN UNIVERSITYOFTECHN0L0GY Ju1.2011
文 章编 号 :1007—9432(2011)04—0334-04
基于划分采样的初始聚类中心算法
李 玮,薛惠锋,詹海亮
(西北工业大学 自动化学院,西安 710072)
摘 要 :针 对 大数据 集 的初 始 聚类 中心选 取 问题 ,在 基 于密度 的划 分算 法和适 用 于大规 模数 据
集 限定初 值 的采样 算法基 础上 ,提 出了一种 用 于初 始 聚 类 中心 的划 分 采样 算 法 。对 聚 类 子 空 间在
每 一维上 进行 均 匀划分 形成 不 同的数据 区域 ,根据 数据 区域 的数 据 点数 的 多少进 行 采 样 来提 高采
样 的准确 性 。利 用采样 思想 缩 小 了数据 集 的规模 ,保证 了算 法在 时 间上 的优 势 。通过 不 同规模 、不
同形状 的数据 集对 算 法进 行验 证 ,实验 结果表 明,与其 它初 始 聚 类 中心算 法相 比 ,该 算 法在 准确 率
和 时 间上 都具 有一 定 的优 势 。
关键 词 :聚类 中心初 始化 ;密度 估计 法 ;限定初值 算 法 ;K—means算 法
中图分类 号 :TP202.7 文献 标识 码 :A
在基于划分 的聚类算法 中,K—means算法以及 划分和划分后数据集 的密度来寻找初始 的聚类 中
中心迭代算法是最有代表性的算法 ,目前被广泛地 心 ,算法流程如下。
应用于模式识别、图像处理等领域。但这些算法对 Stepl:将整个数据集划分成M个子空间S,,J=
初始值比较敏感 ,容易陷入局部最优。为了提高这 1,2,…,M,并计数每个数据区域内的点的个数 ,;
些算法的效率 ,使算法不受局部极小值的影响,聚类 Step2:在每个子空间内随机选取 K 一k× /n
初值的选取显得尤为重要。选择恰 当的初值不仅能
(取整)个数据样本作为初始聚类中心(其中k是聚类
够提高聚类结果的质量 ,还能够加速迭代过程的收
数 目,是所有数据点的个数);
敛速度。为了确定初始聚类 中心,国内外学者提出
了多种不 同的方法 ,典型的有 TOU和 Gonzales提出 Step3:如果∑K一k,则停止;若∑Kk,
的 SCS算法_l】],Kaufman和 Rousseeuw 提 出的 且(是一K)/k 10 ,则使M —M一(~/M 一1),
Kaufman方法 ],PaulS.Bradley等提 出的PB算 并转 向Step2,否则选取随机点作为未初始化的聚
法_3“j,StephenJ.Redmond和 ConorHeneghan提 类中心。
出的初始聚类中心的 kd—trees算法 [5]。在 国内,复 1.1.2 PB算法
旦大学的钱线等提 出了初始聚类中心的谱方法 ], PB算法由PaulS.Bradley等提出,算法流程如下。
该方法给出了类的特征 中心这一新概念 ,算法估 计
Stepl:在数据集上进行 次随机子采样 ,形成
出数据集中各个类 的特征 中心,然后用特征 中心初
数据子集 S,,J一1,2,…,J;
始化 K—means算法。这些方法针对不 同的数据集
Step2:对于每一个数据子集 S,,J一1,2,… ,,‘,
均取得了一定 的效果。本文在分析已有研究成
文档评论(0)