- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
zf zf 第三章 聚类分析 第一节 3.1 聚类分析的基本思想 一、什么是聚类分析? 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性最大化。 聚类分析的应用:无处不在 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 为什么这样分类?(分类的好处) 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 例1 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。 例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。 三、聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等 3.2 相似性度量 1、样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性 距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系。 变量可分为定性变量和定量变量。若按测量尺度的不同可以分为: (1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 (2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、二等品、三等品等有次序关系。 (3)名义尺度变量:变量用既没有数量关系也没有次序关系,只有一些特性状态,如性别、职业、产品的型号等。 一、间隔尺度变量的相似性度量 1、距离 设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为: 每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为 聚类过程中,相距较近的点归为一类,相距较远的点归为不同的类。 常用距离: (1)、明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: (1a)、绝对距离(Block距离):当q=1时 (1b)欧氏距离(Euclidean distance):当q=2时 (1c)切比雪夫距离:当 时 明考夫斯基距离主要有以下两个缺点: ①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 ②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,
您可能关注的文档
最近下载
- 外国法制史复习提纲.doc VIP
- 输变电工程标准工艺(电缆工程分册)2022版.docx
- 小学教育类书籍读后感.doc VIP
- 部编版语文四年级非连续性文本阅读练习题(附参考答案).docx
- 2023年四川传媒学院公共课《马克思主义基本原理概论》期末试卷A(有答案).docx VIP
- 天然气制氢工艺介绍及成本分析.pdf VIP
- 2023-2024学年广东省深圳市南山区七年级(下)期末数学试题.docx
- 高校实验室安全准入教育通识课学习通超星期末考试答案章节答案2024年.docx
- 广日电梯GRS2系统电梯调试手册(电气部分)as380 V06.pdf
- 实测天体物理考研试题与答案1.doc VIP
文档评论(0)