一种改进的混合属性数据聚类算法.docVIP

下载本文档

3
0
约7.5千字
约 11页
2018-04-06 发布于北京
举报
版权申诉

一种改进的混合属性数据聚类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进的混合属性数据聚类算法　　摘要:K-prototypes算法是处理混合属性数据的主要聚类算法,但是存在对初值敏感、参数依赖和易受“噪声”干扰等问题。为了克服以上缺点,该文对K-prototypes算法的初始中心点选择进行了研究与分析,提出了一种基于近邻法的初始中心点选择策略对算法进行改进,算法先利用近邻法获得初始中心点集和k值,然后进行K-prototypes运算,最后加入识别异常数据点的规则。改进后的算法成功解决了传统K-prototypes算法的缺陷,而且具有更好的分类精度和稳定性。经实验证明,改进算法是正确和有效的,明显优于传统的K-prototypes算法。　　关键词:聚类分析;初始中心点;K-原型算法;聚类算法;混合属性数据　　中图分类号:TP301文献标识码:A 文章编号:1009-3044(2010)11-2713-04 　　　　A K-prototypes Algorithm Based on Improved Initial Center Points 　　CHEN Dan, WANG Zhen-hua 　　(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China) 　　Abstract: The K-prototypes is the main clustering algorithm that capable of handling mixed numeric and categorical data. However, K-prototypes sensitive to its initial center points, is parameter-dependent and susceptible to noise interference. In order to overcome them, a method is proposed to build initial center points heuristically through the neighbors of objects, and then calculate according the K-prototypes algorithms procedures. At last, use a rule to optimize the clustering results which able to identify the abnormal points. The proposed algorithm successfully resolved the defects of the traditional algorithm, improves the accuracy of clustering results and stability of the algorithm. Experiments show the proposed algorithm leads to better accurate and scalable, superior to the traditional K-prototypes. 　　Key words: Clustering analysis; Initial center points; K-prototypes; Clustering algorithm; mixed numeric and categorical data 　　　　聚类是数据挖掘中的一种数据分析技术,具有重要意义和很强的挑战性。其基本原理是将数据划分成有意义的簇,相同簇的对象之间具有较高的相似性,而不同簇的对象之间则相似程度较低。这种数据分析技术广泛应用于模式识别、数据分析、图像处理和商业研究等方面。目前已划分出多种聚类算法,常见的聚类算法有基于划分的K-均值,基于密度的DBSCAN算法,基于层次的BRICH算法等。基于划分的聚类算法K-means简单快速,对处理大数据集,但它是基于欧氏距离的划分,难以满足混合属性集聚类的要求。文献[1-2]对K-means算法进行扩展,先后出现了K-modes算法和K-prototypes算法。K-prototypes算法能够有效地处理混合属性数据集聚类的问题,但它的缺点也很明显:1) 对于不同的初始值,可能会导致不同的聚类结果;2) 需要用户给定初始参数,这些参数的选择需要用户具备大量的先验知识才能确定,而用户通常对数据集缺乏先验知识导致所选参数对聚类结果产生很大的影响;3) 算法非常容易受“噪声”干扰,导致聚类精度下降。　　近邻法是由Cove