- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第26卷 第3期 广西师范大学学报: 自然科学版 Vol. 26 No. 3
2008年9月 Journal of Guangxi Normal University: Nat ural Science Edition Sept. 2008
基于遗传算法的混合属性聚类初始点选择研究
赵立江
( 徐州师范大学计算机学院, 江苏徐州 221116)
摘 要: k-protot ypes 是处理包含数值属性和分类属性混合数据主要的聚类算法, 但由于对初始点的随机选择极易使聚类结果陷入局部最优, 导致聚类结果的偏差。为改善聚类结果对初始点的依赖, 采用遗传算法对初始点进行全局最优搜索。改进后的方法有更高的稳定性和对大数据集更快的收敛速度。数据集仿真结果表明改进算法正确、有效。
关键词: 遗传算法; 聚类; k-means; k-protot ypes; 分类型数据; 相异度
中图分类号: TP391. 4 文献标识码: A 文章编号: 1001-6600( 2008) 03-0194-04
传统的 k-means 等基于划分的聚类算法在许多领域已获得广泛应用[ 1] , 但对商业应用中的包含数值及分类属性的混合类型数据集难以处理。文献[ 2] k-modes 算法和 k-prototypes 算法, 提出利用分类型属性简单匹配相异度转化, 从而解决对混合属性数据集聚类问题。但此类基于划分的聚类算法由于随机选择初始点, 因此易陷入局部极值点, 导致聚类结果对初始点敏感, 甚至出现偏离实际的情况。为此, 本文提出一种基于遗传算法选择初始点选择改进算法, 利用遗传算法的全局最优寻解和并行处理能力, 极大地改善了算法性能。
1 基于遗传算法的聚类算法研究
为了克服聚类算法对初始化敏感的缺点, 人们提出了用割平面、分支定界等数学规划的方法以获得全局最优解等方法, 取得了一定程度令人满意的结果。遗传算法( GA) 是 Holland 1975年提出的一种通过模拟自然进化过程全局并行搜索最优解的方法, 其特点是隐含并行性和对全局信息的有效利用能力, 只需少量结果就可反映探索空间较大的区域的能力, 便于实时处理, 且有较强的鲁棒性, 并能收敛到全局最优。
随着进化计算的发展, 有学者也将其应用到聚类分类应用中。有人提出基于 GA 的改进 k-means 聚类方法[ 3~5] 。这些算法都是基于 GA 为常规聚类算法改善聚类效果的思路, 与常规聚类方法相比, 其收敛效率还值得进一步研究。直接应用标准遗传算法来解决聚类问题, 算法运行效率较差。要构造有效的基于遗传算法的聚类方法, 必须尽可能地应用特定问题领域知识。
2 新初始点的遗传聚类选择方法
对初始聚类中心的选取采用的基本思想如下:
对原始数据集进行均匀采样, 得到一个能在一定程度上代表原始数据集特征的子集, 然后对子集进行遗传聚类算法聚类初始点, 由于该算法是在小样本集上完成的, 所以算法可以以较快速度收敛。
2. 1 遗传聚类算法设计
利用遗传算法求解混合属性数据集的聚类问题, 须解决染色体编码、适应度函数构造、各个遗传算子选择3个问题, 为确保快速收敛到最优解, 下面先对问题的解进行编码和适应度函数构造, 然后给出相应算法描述。
收稿日期: 2008-06-15
基金项目: 国家自然科学基金资助项目( ; 江苏省高校自然科学基础研究资助项目( 07KJDS520216) 通讯联系人: 赵立江( 1970—) , 男, 山东潍坊人, 徐州师范大学副教授。E-mail: ljzhao@ xznu. edu. cn
第3期 赵立江: 基于遗传算法的混合属性聚类数据初始点选择算法的改进研究 195
2. 1. 1 染色体编码
遗传算法提供了寻优问题的通用框架, 首先进行染色体编码, 将聚类问题的解编码到基因串中。设 N 个样本要分成 k 类, 采用组数编码, 基因串S= ( S1, ? , SN ) 表示染色体结构, S为1×N 维行向量, si 为第 i 位的等位基因, 但 si∈{ 1, 2, ? , k}, i= 1, 2, ? , N , 当 si= c 时表示第 i 个样本属于 c 类。
2. 1. 2 适应度函数的构造
适应度函数来度量每条基因串对聚类问题的适应程度, 由聚类目标函数 El [ 3] ,
n mr n mr
El =iy il 6j ( x ijr - qijr ) 2+ C6i yil6j D( x cij , y cij ) = Erl + Ecl , ( 1)
=1 = 1 = 1 = 1
由目标函数定义知, El 越小, 聚类效果越好。为了便于选择策略的应用, 将求极小值变换为求极
文档评论(0)