- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朱慧明老师高级管理统计聚类分析判别分析主成分分析因子分析
Modern Statistical Methods 第7章 聚类分析Cluster Analysis 物以类聚、人以群分 7.1 背景问题 [1] 按照“数学” 成绩将100个同学分成5类。 ◇ 如何进行分类? ◇ 可能结果如何? [2] 按照“数学”,“英语”,“政治” 等3门课程的成绩,将50个同学进行分类? ◇ 分成几个类别比较合适?2,3,4? ◇ 如何进行划分?分类的依据=? ◇ 可能的分类结果如何?每类可能有几个同学? [3] 把中国的所有的县级行政区域分成若干类 ◇ 选择什么指标比较好? ◇ 如何进行划分?地域(地理位置),南北东西 ◇ 分成几类比较合适? 备注: 县级行政区域数量 中国大陆共有县级行政区2860个,其中包括374县级市、1470县、117自治县、845市辖区、49旗、3自治旗、2特区和1林区 [4] 对全国31个省市自治区的经济发展状况进行分类?对其教育状况进行分类? [5] 聚类分析在市场分析中的应用 根据消费者的购买量,家庭收入,家庭支出,年龄等多个指标进行分类,为市场营销战略和策略的制定提供科学合理的参考 也就是,客户数据信息的挖掘(Data Mining) 其它数据分类,例如 ? ? ? (1)对人进行分类,例如,学生学习成绩,身高,家庭人均收入 (2)对普通高校进行分类,研究型,教学研究型,教学型 (4)对动物进行分类? (5) 还有什么分类? ◆ 对变量的分类 例如,20个同学15门功课的成绩,考虑对15门课程进行聚类(分类) 7.2 基本概念 几个定义 什么是类?类就是相似元素构成的集合 例如,① 学习成绩优良的学生的集合 ② 经济比较发达的地区的集合 ③ 经济发达国家的集合,G7,G8? 什么是聚类分析 聚类分析(Cluster Analysis)是根据研究对象的特征对研究对象进行分类的数据分析方法的总称。 聚类分析将性质(特征)相近的个体归为同一类,使得每一类的个体具有高度相似性,而不同类之间的个体具有高度的异质性。 聚类分析的具体方法 (1)系统聚类分析(Hierachical Cluster ) (2)动态聚类分析(Dynamic Cluster) (3)模糊聚类分析(Fuzzy Cluster) ● 系统聚类分析的主要步骤(四步) (1)根据研究目标选择合适的聚类变量 (2)计算相似性测度 (3)选定聚类的方法 (4)对结果进行解释和验证 步骤1 变量选择 聚类分析是根据所选定的变量对研究对象进行分类,聚类的结果仅仅反映了所选定变量所定义的数据结构,所以变量的选择在聚类分析中十分重要。 变量应该具有的特点: ① 和聚类分析的目的密切相关 ② 反映了分类对象的特征 ③ 在不同个体上的取值具有明显的差异 ④ 变量之间不应该高度相关 备注 ① 避免“加入尽可能多的变量”错误倾向,并不是变量越多,结果越客观。 应该选择在研究对象上有显著差异的变量进行分类,剔除在不同类之间没有显著差异的变量。 备注 ② 所选择的变量之间不应该高度相关,如何处理? 方法1:先对变量进行聚类,然后从每一类中选择一个变量进行聚类分析 方法2:作主成分或主因子分析,利用主成分或主因子进行聚类分析 步骤2 计算相似性 选定了聚类变量,下一步就是计算研究对象(个体)之间的相似性(Similarity)。相似性是聚类分析中的一个基本概念,它反映了研究对象之间的亲疏程度,距离分析就是根据研究对象之间的相似性来进行分类的 相似性的度量方法很多 步骤3 聚类 选定了聚类变量,计算出相似性矩阵,下一步就是对研究对象(个体)进行分类。 主要涉及两个问题: ① 聚类方法的选择 ② 类的个数? 步骤4 聚类结果的解释和验证 在得到聚类分析的结果后,需要对聚类结果进行验证和解释,以保证聚类结果是可信的 7.3 相似性的度量 在聚类分析中,相似性的度量方法主要有三种:相关系数方法,距离方法和关联方法,主要介绍前面两种方法 n个个体(样品),m个变量:x1,x2,…,xm,数据如下: 记号:x1,x2,…,xm的协方差阵记作∑,即 (1)相关系数 (2)夹角余弦 (1)欧氏距离(Euclidean distance) 涵义:第i个样品(个体)与第j个样品(个体)之间的距离。 (2)绝对值距离 (3)明科夫斯基距离(Minkowski Metrics) 备注 ① r
文档评论(0)