- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
zf zf 第三讲 聚类分析 (Cluster Analysis) 一、聚类分析的基本思想 1、什么是聚类分析? 聚类分析: 是根据“物以类聚”的道理,对样品或指标进行分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多元统计分析方法。 聚类分析的目的:把相似的研究对象归成类;即:使类内对象的同质性最大化和类间对象的异质性最大化。 例1:谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(如用性别、年龄等变量来刻画) 例2:谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 例3:市场营销经理试图依据相似性识别不同的顾客群体,以便针对每个不同的顾客群体制定相应的营销计划,提高营销效率。 他们可能依据消费者的生活模式进行细分。 一类为喜欢户外活动的顾客群体; 一类为喜欢娱乐活动的消费者; 一类为喜欢烹饪和园艺的消费者。 不同的群体对产品需求可能有所不同,对产品广告反映也可能会有所不同。 市场部经理可针对不同的消费者群体制定不同的推销策略。 系统聚类(又称为层次聚类Hierarchical cluster) 非系统聚类(又称为非层次聚类non- hierarchical cluster ):如K-均值法(快速聚类法) 二、相似性度量 1、相似性的度量指标: 相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; 距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。 常用距离: 1)明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: 1a)绝对距离(Block距离):当q=1时 1b)欧氏距离(Euclidean distance):当q=2时 1c)切比雪夫距离:当 时 以上几种距离主要有以下两个缺点: 距离的值受到各指标的量纲的影响,具有一定的人为性。 距离的定义没有考虑各个变量之间的相关性和重要性。 当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理: 其中: 为第j个变量的样本均值; 为第j个变量的样本方差。 改进距离的定义,运用马氏距离。 2)马氏距离 三、类和类之间的距离度量 1、最短距离(Nearest Neighbor) G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海} 采用欧氏距离: d12 =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 d78=min{d71,d72}=12.80 7 8 D4= 7 0 8 12.8 0 河南3 甘肃4 青海5 辽宁1 浙江2 2、最长距离(Furthest Neighbor ) (3)组间平均连接(Between-group Linkage) (4)组内平均连接(
文档评论(0)