基于遗传算法的混合类型数据聚类分析.docVIP

基于遗传算法的混合类型数据聚类分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于遗传算法的混合类型数据聚类分析   摘要: 针对聚类分析算法在数据挖掘应用中存在的问题,该文结合遗传算法,对传统K均值聚类算法进行了改进,提出了混合类型数据聚类新算法,扩展了聚类分析的应用范围。实验结果表明,该算法具有较好的聚类性能。   关键词:遗传算法;层次化聚类;目标函数;优化   中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-8875-02   A GA-Based Mixed Type Data Clustering Analysis   DONG Jian-kang1, WU Qi-ming2   (1.Computer Science School, Gansu Political Science and Law Institute, Lanzhou 730070, China; 2.Department of Computer and Information Science, Hechi University, Yizhou 546300, China)   Abstract: To overcome the faultiness of the available clustering algorithm for the applications in data mining, a GA-based mixed type data clustering algorithm was proposed, which integrated genetic algorithm and improved the traditional K-means clustering algorithm. It extends the scope of the application of cluster analysis. The experiments show that the proposed algorithm works well.   Key words: genetic algorithms; clustering; objective function; optimization   聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。数据的特征值多种多样。二元变量只有两个状态,非此即彼;区间标度变量是一个粗略线性标度的连续变量,如温度、高度、重量等;标称变量则由多个离散值组成,如地图颜色可能有五个状态:红色、黄色、绿色、粉红色、蓝色。作聚类分析时,可能用到一种变量,也可能是多种变量的组合。 传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某类中,具有非此即彼的性质,因此这种类别划分的界限是分明的。而实际上大多数对象并没有严格的属性,如何对混和属性数据进行聚类分析是件极具挑战性的工作,也是目前聚类分析研究的主流[1]。   聚类算法可分为以下几类[2]:   1) 划分方法:给定一个包含n个对象的数据集,将其划分为k个子集,其中每个子集均代表一个聚类;   2) 层次方法:通过分解给定的数据集来创建一个层次,根据层次分解形成的方式采用自上而下或自下而上的方法进行聚类;   3) 基于密度方法:实际上就是不断增长所获得的聚类,直到“临近”密度小于一定阈值为止;   4) 基于网格方法:将数据集划分为有限数目的单元以形成网格结构,所有聚类操作均在这一网格结构上进行;   5) 基于模型的方法:为每个聚类假设一个模型,再去发现符合相应模型的数据对象。文章主要分析划分方法。   2 聚类分析的数学模型   假设X={x1,x2,…,xn}是待分析的对象全体,也可称为论域或样本集合。X中的每个对象(也可称为样本)(1≤i≤n)常用有限个参数值来刻画,每个参数值用于刻画xi的某个特征(属性)。于是对象xi就对应着一个向量P(xi)=(xi1,xi2,…,xim), 其中xij()是xi在j个特征上的值,P(xi)称为xi的特征向量或模式向量。聚类分析就是分析论域或样本集合X中的n个样本所对应的模式矢量间的空间距离及分散情况,按照各样本间的距离远近或相似程度把x1, x2,…, xn划分成k个不相交的模式子集X1, X2, …, Xk,并要求满足下列条件:   X1∪X2∪…∪Xk=X,Xi∩Xj=?准(1≤i, j≤k,i≠j)    样本xj(1≤j≤n)对子集xi(1≤i≤k)的隶属度关系可用隶属度函数表示为:   其中,隶属度函数必须满足条件Wij∈Mhk。也就是说:   1) 要求每一个样本能且只能隶属于某一类。   2) 要求每个子类都

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档