系统工程3–2聚类分析”.pptVIP

下载本文档

5
0
约3.22千字
约 29页
2017-06-11 发布于四川
举报
版权申诉

系统工程3–2聚类分析”.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

系统工程3–2聚类分析”

3-2 聚类分析 Cluster Analysis;什么是聚类分析聚类分析是根据“物以类聚”的道理，对样品（观测量）或指标（变量）进行分类的一种多元统计分析方法。将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析的目的：使类内对象的同质性最大化和类间对象的异质性最大化。原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。;聚类分析的应用：无处不在早在孩提时代，人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗，动物和植物谁经常光顾商店，谁买什么东西，买多少？按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以…. 识别顾客购买模式（如喜欢一大早来买酸奶和鲜肉，习惯周末时一次性大采购）刻画不同的客户群的特征（用变量来刻画，就象刻画猫和狗的特征一样）;为什么这样分类？（分类的好处）因为每一个类别里面的人消费方式都不一样，需要针对不同的人群，制定不同的关系管理方式，以提高客户对公司商业活动的参与率。挖掘有价值的客户，并制定相应的促销策略：如，对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告，比在大街上乱发传单命中率更高，成本更低！;如：对企业的经济效益进行评价时，建立了一个由多个指标组成的指标体系，由于信息的重叠，一些指标之间存在很强的相关性，所以需要将相似的指标聚为一类，从而达到简化指标体系的目的。 ;基本思想：是根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类，把不相似的归为其他类。直到把所有的样品（或指标）聚合完毕. 相似样本或指标的集合称为类。问题：如何来选择样品（或指标）间相似的测度指标，如何将有相似性的类连接起来？ ;聚类分析的类型有：对样本分类，称为Q型聚类分析对变量分类，称为R型聚类分析 Q型聚类是对样本进行聚类，它使具有相似性特征的样本聚集在一起，使??异性大的样本分离开来。 R型聚类是对变量进行聚类，它使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。;样品聚类：对观测量(Case)进行聚类（不同的目的选用不同的指标作为分类的依据，如选拔运动员与分课外活动小组）。变量聚类：找出彼此独立且有代表性的自变量，而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例，如：衣服号码（身长、胸围、裤长、腰围）、鞋的号码。变量聚类使批量生产成为可能。;聚类分析的方法：系统聚类（层次聚类）非系统聚类（非层次聚类）系统聚类法包括：凝聚方式聚类、分解方式聚类非系统聚类法包括：模糊聚类法、K－均值法（快速聚类法）等等 ;以系统聚类法为例 ;样本或变量的相似性程度的数量指标：距离它是将每一个样品看作p维空间的一个点，并用某种度量方法测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。相似系数性质越接近的变量或样品，它们的相似系数越接近于1或一l，而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类；样本分类（Q型聚类）常以距离刻画相似性指标分类(R型聚类)常以相似系数刻画相似性;;常用距离明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式：绝对距离（Block距离）：当q=1时;常用距离明氏距离有三种特殊形式：欧氏距离(Euclidean distance):当q=2时切比雪夫距离:当 q= ∞时 ;明考夫斯基距离主要有以下两个缺点：明氏距离的值与各指标的量纲有关，而各指标计量单位的选择有一定的人为性和随意性，各变量计量单位的不同不仅使此距离的实际意义难以说清，而且，任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上，明考夫斯基距离是把各个变量都同等看待，将两个样品在各个变量上的离差简单地进行了综合。;当各变量的单位不同或测量值范围相差很大时，不应直接采用明氏距离，而应先对各变量的数据作标准化处理，然后用标准化后的数据计算距离。常用的标准化处理：其中为第j个变量的样本均值；为第j个变量的样本方差。;二、相似系数相似系数（或其绝对值）越大，变量之间的相似性程度越高；反之，越低。聚类时，比较相似的变量归为一类，不太相似的变量归为不同的类。变量xi与xj的相似系数用cij表示，满足以下三个条件 ;相似系数的表示方法夹角余弦