多元06:聚类分析概要.pptVIP

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元06:聚类分析概要

多元统计分析 聚类分析 第三章 聚类分析 §3.1 聚类分析的基本思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析 §3.6 K—均值聚类和有序样品的聚类 §3.7 计算步骤与上机实现 §3.8 社会经济案例研究 §3.1 聚类分析的基本思想 聚类分析又称群分析、点群分析,是定量研究分类问题的一种多元统计方法 分类问题 定性分类:经验和专业知识 数值分类:数学方法 聚类分析:多元分析——多因素、多指标 聚类分析 相似性:样品或指标之间 统计量:度量样品或变量之间相似程度 聚类法:聚合样品或变量 二、目的 把相似的研究对象归成类 使同一类中的个体有较大的相似性,不同类中的个体差异较大 例 上市公司的经营业绩进行分类 电信公司对不同用户进行分类…… 各省份小康指数 选择合适的统计方法进行分类 计算离差平方和 北京和上海 (93.2 - 92.3)2+(100 - 95.1)2+ (94.7 - 92.7)2+ (108.4 - 112)2+ (97.4 - 95.4)2+ (55.5 - 57.5)2=49.78 北京和四川 (93.2 - 59.3)2+(100 - 60.7)2+ (94.7 - 43.5)2+ (108.4 - 71.9)2+ (97.4 - 50.6)2+ (55.5 - 78.5)2=9366.63 这个相似的测度——分类是否合理? 如何来选择样品间相似的测度指标,如何将有相似性的类连接起来? 三、分类方法 聚类分析方法 系统聚类法 模糊聚类法 动态聚类法 有序样品聚类法、图论聚类法、聚类预报法等 两种聚类 Q型聚类:样品 R型聚类:变量 §3.2 相似性度量 间隔尺度:连续数值 长度、重量、收入、支出等 顺序尺度:次序关系 评价味道,分成好、中、次等 名义尺度:特性状态 电路的开和关、性别的男和女、交易中的买和卖等 二、相似性测度:距离 相似系数 定义距离的准则:四条公理 常见距离 1、明氏Minkoski距离 2、兰氏Lance Williams距离 自身标准化的量:对大的奇异值不敏感,适合于高度偏倚的数据 缺点:相关性 3、马氏Mahalanobis马哈拉诺比斯距离 ?未知——样本协方差矩阵 量纲、相关性 (二)相似系数 1、相关系数 (三)进一步讨论 在实际应用中应有明确的意义 如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度 综合考虑变换方法和聚类分析方法 在标准化变换之下,夹角余弦实际上就是相关系数 已对变量的作相关性处理,通常采用欧氏距离 聚类方法若选用离差平方和法,则距离只能选 用欧氏距离 适当地考虑计算工作量的大小 对大样本的聚类问题,不适宜选择斜交空间距离 试探多个亲疏测度指标 进行对比分析,确定合适的亲疏测度指标 2、数据的变换 标准化 中心化 极差规格化 至此 构成样本点间的距离表 §3.3 类和类的特征 G : 二、类特征 均值:重心 样本散布阵及协方差 直径 三、类距离 两类样品两两之间距离的最小的 3、组间平均连接(Between-group Linkage) 两类间样品的平均距离 5、重心法(Centroid clustering) 均值点的距离 §3.4 系统聚类法 Hierarchical clustering method 二、聚类方法 例:小康指数:综合、结构、经济、人口、生活、治安 2、最长距离(Furthest Neighbor ) 四类: 北京上海天津 浙江广东福建江苏山东辽宁 甘肃江西……西藏 黑龙江吉林……海南 4、重心法(Centroid clustering) 四类: 北京上海天津 黑龙江吉林新疆江苏山东辽宁浙江广东福建 西藏 甘肃江西……海南 三、分类数的确定 给定阈值——观测聚类图,给出一个合适的阈值T 统计量 碎石图 合并类的距离 例:小康指数 平方欧氏距离 组间平均链锁法 四、系统聚类法的统一 统一 2、系统聚类法的性质 单调性 除了重心法和中间距离法之外 END 主讲人:孙云龙 数学建模课件 SUN 主讲人:孙云龙 数学建模课件 Email:sunyl@swufe.edu.cn 主讲:孙云龙 内容 一、概念 综合 结构 经济 人口 生活 治安 北京 93.20 100.00 94.70 108.40 97.40 55.50 上海 92.30 95.10 92.70 112.00 95.40 57.50 四川 59.30 60.70 43.50 71.90 50.60 78.50 一、变量的测量尺度 (一)距离 欧氏平方距离 特别:欧氏距离 缺点:量纲、相关性和重要性 切比谢夫距离 4、其他距离 杰斐瑞和马突斯塔(Jffreys M

文档评论(0)

jiayou10 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档