sas与聚类分.docVIP

下载本文档

2
0
约 20页
2016-12-05 发布于河南
举报
版权申诉

sas与聚类分.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

sas与聚类分

1聚类分析介绍 1.1基本概念聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织成一些相似组，而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同，处于不同聚类中的实例彼此不同。聚类技术通常又被称为无监督学习，因为与监督学习不同，在聚类中那些表示数据类别的分类或者分组信息是没有的。通过上述表述，我们可以把聚类定义为将数据集中在某些方面具有相似性的数据成员进行分类组织的过程。因此，聚类就是一些数据实例的集合，这个集合中的元素彼此相似，但是它们都与其他聚类中的元素不同。在聚类的相关文献中，一个数据实例有时又被称为对象，因为现实世界中的一个对象可以用数据实例来描述。同时，它有时也被称作数据点（Data Point），因为我们可以用维空间的一个点来表示数据实例，其中表示数据的属性个数。下图显示了一个二维数据集聚类过程，从该图中可以清楚地看到数据聚类过程。虽然通过目测可以十分清晰地发现隐藏在二维或者三维的数据集中的聚类，但是随着数据集维数的不断增加，就很难通过目测来观察甚至是不可能。 ? ? 1.2算法概述目前在存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和具体应用。大体上，主要的聚类算法分为几大类。 ? 聚类算法的目的是将数据对象自动的归入到相应的有意义的聚类中。追求较高的类内相似度和较低的类间相似度是聚类算法的指导原则。一个聚类算法的优劣可以从以下几个方面来衡量： (1)可伸缩性：好的聚类算法可以处理包含大到几百万个对象的数据集； (2)处理不同类型属性的能力：许多算法是针对基于区间的数值属性而设计的，但是有些应用需要针对其它数据类型（如符号类型、二值类型等）进行处理； (3)发现任意形状的聚类：一个聚类可能是任意形状的，聚类算法不能局限于规则形状的聚类； (4)输入参数的最小化：要求用户输入重要的参数不仅加重了用户的负担，也使聚类的质量难以控制； (5)对输入顺序的不敏感：不能因为有不同的数据提交顺序而使聚类的结果不同； (6)高维性：一个数据集可能包含若干维或属性，一个好的聚类算法不能仅局限于处理二维或三维数据，而需要在高维空间中发现有意义的聚类； (7)基于约束的聚类：在实际应用中要考虑很多约束条件，设计能够满足特定约束条件且具有较好聚类质量的算法也是一项重要的任务； (8)可解释性：聚类的结果应该是可理解的、可解释的，以及可用的。 1.3聚类应用在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的潜在市场、选择实验的市场，并作为多元分析的预处理。在生物上，聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识。在地理上，聚类能够帮助在地球中被观察的数据库商趋于的相似性。在保险行业上，聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组。在因特网应用上，聚类分析被用来在网上进行文档归类来修复信息。在电子商务上，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过分组聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好的帮助电子商务的用户了解自己的客户，向客户提供更合适的服务。 2kmeans算法 2.1基本思想划分聚类算法是根据给定的个对象或者元组的数据集，构建个划分聚类的方法。每个划分即为一个聚簇，并且。该方法将数据划分为个组，每个组至少有一个对象，每个对象必须属于而且只能属于一个组。 HYPERLINK /s/blog_61c463090100lynw.html \l _ftn1#_ftn1 \o [1]该方法的划分采用按照给定的个划分要求，先给出一个初始的划分，然后用迭代重定位技术，通过对象在划分之间的移动来改进划分。为达到划分的全局最优，划分的聚类可能会穷举所有可能的划分。但在实际操作中，往往采用比较流行的k-means算法或者k-median算法。 2.2算法步骤 k-means算法最为简单，实现比较容易。每个簇都是使用对象的平均值来表示。步骤一：将所有对象随机分配到个非空的簇中。步骤二：计算每个簇的平均值，并用该平均值代表相应的值。步骤三：根据每个对象与各个簇中心的距离，分配给最近的簇。步骤四：转到步骤二，重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数或者终止条件。终止（收敛）条件可以是以下任何一个：没有（或者最小数目）数据点被重新分配给不同的聚类；没有（或者最小数目）聚类中心再发生变化；误差平方和（SSE）局部最小。?? SAS kmeans实现主要是通过proc fastclus过程实现，示例如下： ? proc import dat