聚类趋势问题研究综述.docVIP

下载本文档

88
0
约9.86千字
约 17页
2018-09-18 发布于福建
举报
版权申诉

聚类趋势问题研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类趋势问题研究综述

聚类趋势问题研究综述　　 (1.上海交通大学电子信息与电气工程学院计算机科学与工程系, 上海 200240; 2.上海中医药大学信息科学与技术中心, 上海 201203) 　　?? 　　摘要：聚类算法的性能与数据集的结构是密切相关的，虽然目前已经研究出了很多聚类算法，但没有普遍适用的万能聚类算法，欠缺对数据集结构的有效解释。对聚类分析过程中重要的关键性问题，即聚类趋势问题进行了系统性的研究，从统计检验、可视化分析等角度给予了讨论，为数据集的无监督聚类分析提供了合理和有效的前期分析工具。　　?す丶?词：聚类趋势；聚类分析；统计检验；可视化评估　　?ぶ型挤掷嗪牛?TP391 文献标志码：A 　　文章编号：1001?B3695(2009)03?B0801?B03 　　?? 　　Research for clustering tendency 　　CHU Na??1, MA Lizhuang1,2， WANG Yan??1 　　?? 　　(1.Dept. of Computer Science Engineering, School of Electronic Information Electrical Engineering, Shanghai Jiaotong University, Shanghai 200240, China; 2.Center of Information Science Technology, Shanghai University of Traditional Chinese Medicine, Shanghai 201203, China) 　　?? 　　Abstract:It is closely related between the performance of clustering algorithms and the structure of data sets. No methods were good enough for all types of data, nor were all methods equally applicable to all problems, and were short of reasonable interpretation to data structure. And systematic researched the clustering tendency, which was one of key problem about clustering analysis. This paper discussed it based on statistic tests, visual analysis and so on, and proved that it could present reasonable and effective analysis tools for unsupervised clustering analysis of data sets. 　　??Key words：clustering tendency; clustering analysis; statistic tests; visual assessment 　　?お? 　　由于数据库技术和传感器技术的飞速发展、数据收集和数据存储技术的快速进步，使得各组织及研究机构积累了海量数据，另一方面，网络技术的发展也使获得大量数据变得较容易。然而在很多实际应用中，这些海量数据由于缺少形成模式类过程的知识，都是没有类别标签的。聚类分析技术能解决这一类问题帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析[1]，寻找隐藏在数据中的结构。它将一组分布未知的数据进行分类，以尽可能地使得在同一类中的数据具有相同性质，而在不同类中的数据其性质各异[2]。目前，聚类分析技术已经在很多领域得到了成功的应用，如模式识别、图像处理、商业数据分析、市场研究、生物基因、信息安全、计算机视觉等，涉及面非常广泛，并且提出了各种聚类算法[3~7]，如比较典型的Kmeans均值算法、FCM等等。然而，大多数聚类分析算法对输入参数是敏感的，且都存在一个不合理的假设：待分析的数据集是可聚的[8]。事实上，现有的大多数聚类算法并不分析数据集的可聚性，只要对数据集进行聚类操作就能得到一个聚类结果。因此，这一不合理假设的存在会产生两个问题：a)如果数据集在空间中是均匀分布的，即自然簇不存在，对数据集进行聚类操作，显然得到的聚类结果是不合理的，且是不可解释的；b)因某种聚类算法并不是对所有的数据类型或者数据结构的分析是适用的[9]，若