第6章 聚类分析_1.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 聚类分析_1.ppt

第六章 聚类分析 分类 俗语说,物以类聚、人以群分. 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类. 聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法.所谓“类”通俗地说就是相似元素的集合. 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性最大化。 聚类分析的应用:无处不在 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式 如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购 刻画不同的客户群的特征 用变量来刻画,就象刻画猫和狗的特征一样 为什么这样分类? 分类的好处 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 2、聚类分析的方法: 系统聚类 层次聚类 非系统聚类 非层次聚类 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法 快速聚类法 等 聚类分析的实质 聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类.常用的聚类统计量有距离系数和相似系数两类.距离系数一般用于对样品分类,而相似系数一般用于对变量聚类.距离的定义很多,如闵科夫斯基距离、欧氏距离、马氏距离、切比雪夫距离等.相似系数有相关系数、夹角余弦等. 确定待研究的问题 选择聚类方法 闵科夫斯基距离主要有以下两个缺点: ①闵氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 ②闵氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,闵科夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。 如何避免闵氏距离的缺点: 兰氏距离 当 时: 马氏距离 马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。 例 假设有一个二维正态总体,它的分布为 夹角余弦 Cosine 相关系数 变量标准化 将n个样品各作为一类 G1 辽宁 ,G2 浙江 ,G3 河南 ,G4 甘肃 ,G5 青海 采用欧氏距离: d12 [ 7.9-7.68 2+ 39.77-50.37 2+ 8.49-11.35 2+ 12.94- 13.3 2+ 19.27-19.25 2+ 11.05-14.59 2+ 2.04-2.75 2+ 13.29-14.87 2]0.5 11.67 d13 13.80 d14 13.12 d15 12.80 d23 24.63 d24 24.06 d25 23.54 d34 2.2 d35 3.51 d45 2.21 1 2 3 4 5

文档评论(0)

dreamzhangning + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档