聚类算法的分析与研究.pdfVIP

下载本文档

19
0
约4.81千字
约 2页
2017-07-06 发布于北京
举报
版权申诉

聚类算法的分析与研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类算法的分析与研究.pdf

the Ana1ysi S and Research of ClUSterin9 Algotithms 梅梦 Mei Meng (江西省商务学校，江西南昌 330100) (Jiangxi Commercial School，Jiangxi Nanchang 330100) 摘要：本文对聚类分析中聚类算法的基本理论进行了详细分析研究，并在此基础上，提出了一个聚类算法的通用算法框架。关键字：聚类分析：聚类算法：算法框架中图分类号：TP301．6 文献标识码：A 文章编号：1 671—4792一(2007)1 1—0006一O2 Abstract：In this thesis，the basic theory of clustering algorithms in clustering analysis is researched ． based on this，a general algorithms framework of c1ustering algorithms is given． Keywords：Clustering Analyzing；Clustering Algorithms；Algorithms Framework 0 引言之问的距离越大，则它们之问的相似度越小。一般地，根据聚类就是将数据集分成多个类 (或簇)，在同—个簇中簇中数据点之间的距离度量标准，可以确定簇与簇之问的距的数据点之间尽可能相似，不同簇巾的数据点之问尽可能不离度量标准。相似。聚类分析源于许多研究领域，包括数据挖掘、统计学、 1．3数据点与簇之间的相似度度量生物学以及机器学习。聚类分析已经广泛地用在许多应用有些聚类算法在对数据集聚类的过程巾，需要利用数据巾，包括模式识别、数据分析、图像处理、市场研究等。点与簇之问的相似度，将数据点添加到与它的相似度最大的欲对一个数据集进行聚类分析，就必须从现有的聚类算簇巾。这个相似性度量常常是基于数据点与簇之间的距离度法中选择一个适合特定问题的算法或者根据特定问题设计一量，距离越大，则它们之问的相似度越小。而数据点与簇之个聚类算法进行数据分析。就是说聚类分析有赖于以下二个间的距离常用数据点与簇的重心之间的距离来表示。方面：①必须具有有效的聚类算法可供聚类分析选择使用； 2 聚类准则问题 ②根据特定问题选取合适的聚类算法。算法的选择取决于数在聚类算法中，需把数据集中的数据点分成多个簇，在据的类型、聚类的目的和应用。若聚类分析被用作描述或探同一簇中的数据点之间尽可能相似，而不同簇巾的数据点尽索的工具，可以对同样的数据尝试多种算法，以发现数据可可能不相似。用来判断已找出的簇是否符合这些要求的准则能揭示的结果。称为聚类准则。最常用的聚类准则是 “误差平方和准则” 。 1 相似性的度量问题 3 聚类算法的比较相似性的度量包括数据点与数据点之间的相似性度量、以下主要基于 “是否具有发现任意形状的簇的能力”这簇与簇之间的相似性度量、数据点与簇之问的相似度度量。个聚类算法的评价标准，对常见的几个聚类算法进行比较，以下从这三个方面进行分析。以便于人们在对数据进行聚类分析时选择合适的聚类算法。 1．1数据点与数据点之问的相似性度量 3．1 K-means算法这个相似性度量常常是基于数据点之问的距离度量，数该算法用簇重心作为簇代表，因而它只能发现“类球形” 据点之问的距离越大，则它们之问的相似度越小。而数据点