基于遗传算法的混合类型数据聚类分析.docVIP

下载本文档

1
0
约3.88千字
约 6页
2018-03-16 发布于北京
举报
版权申诉

基于遗传算法的混合类型数据聚类分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于遗传算法的混合类型数据聚类分析　　摘要: 针对聚类分析算法在数据挖掘应用中存在的问题,该文结合遗传算法,对传统K均值聚类算法进行了改进,提出了混合类型数据聚类新算法,扩展了聚类分析的应用范围。实验结果表明,该算法具有较好的聚类性能。　　关键词:遗传算法;层次化聚类;目标函数;优化　　中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-8875-02 　　A GA-Based Mixed Type Data Clustering Analysis 　　DONG Jian-kang1, WU Qi-ming2 　　(1.Computer Science School, Gansu Political Science and Law Institute, Lanzhou 730070, China; 2.Department of Computer and Information Science, Hechi University, Yizhou 546300, China) 　　Abstract: To overcome the faultiness of the available clustering algorithm for the applications in data mining, a GA-based mixed type data clustering algorithm was proposed, which integrated genetic algorithm and improved the traditional K-means clustering algorithm. It extends the scope of the application of cluster analysis. The experiments show that the proposed algorithm works well. 　　Key words: genetic algorithms; clustering; objective function; optimization 　　聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。数据的特征值多种多样。二元变量只有两个状态,非此即彼;区间标度变量是一个粗略线性标度的连续变量,如温度、高度、重量等;标称变量则由多个离散值组成,如地图颜色可能有五个状态:红色、黄色、绿色、粉红色、蓝色。作聚类分析时,可能用到一种变量,也可能是多种变量的组合。传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某类中,具有非此即彼的性质,因此这种类别划分的界限是分明的。而实际上大多数对象并没有严格的属性,如何对混和属性数据进行聚类分析是件极具挑战性的工作,也是目前聚类分析研究的主流[1]。　　聚类算法可分为以下几类[2]: 　　1) 划分方法:给定一个包含n个对象的数据集,将其划分为k个子集,其中每个子集均代表一个聚类; 　　2) 层次方法:通过分解给定的数据集来创建一个层次,根据层次分解形成的方式采用自上而下或自下而上的方法进行聚类; 　　3) 基于密度方法:实际上就是不断增长所获得的聚类,直到“临近”密度小于一定阈值为止; 　　4) 基于网格方法:将数据集划分为有限数目的单元以形成网格结构,所有聚类操作均在这一网格结构上进行; 　　5) 基于模型的方法:为每个聚类假设一个模型,再去发现符合相应模型的数据对象。文章主要分析划分方法。　　2 聚类分析的数学模型　　假设X={x1,x2,…,xn}是待分析的对象全体,也可称为论域或样本集合。X中的每个对象(也可称为样本)(1≤i≤n)常用有限个参数值来刻画,每个参数值用于刻画xi的某个特征(属性)。于是对象xi就对应着一个向量P(xi)=(xi1,xi2,…,xim), 其中xij()是xi在j个特征上的值,P(xi)称为xi的特征向量或模式向量。聚类分析就是分析论域或样本集合X中的n个样本所对应的模式矢量间的空间距离及分散情况,按照各样本间的距离远近或相似程度把x1, x2,…, xn划分成k个不相交的模式子集X1, X2, …, Xk,并要求满足下列条件: 　　X1∪X2∪…∪Xk=X,Xi∩Xj=?准(1≤i, j≤k,i≠j) 　　样本xj(1≤j≤n)对子集xi(1≤i≤k)的隶属度关系可用隶属度函数表示为: 　　其中,隶属度函数必须满足条件Wij∈Mhk。也就是说: 　　1) 要求每一个样本能且只能隶属于某一类。　　2) 要求每个子类都