系统分类和因子分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
系统分类和因子分析

系统分析方法 秦华鹏 北京大学深圳研究生院 环境与城市学院 办公室:E414 电话:0755Email:qinhuapeng@iee.pku.edu.cn 2006年3月 第3讲 系统分类与因子分析 一 聚类分析 引言 距离与相似系数 类间距离 数据标准化处理 系统聚类分析 应用实例 1.1引言 从实例谈起 聚类的功能 聚类为探索性分析方法 聚类的几何表达 从实例谈起 分类现象无所不在 医学领域 图书馆 生活中 经济领域 … 分类是认识世界的方式,也是管理世界的有效手段。许多科学的研究都是从分类研究出发的 聚类的功能 是一种建立分类的多元统计方法,它将一组样品或变量,按照它们在性质上的“亲疏程度”,在“没有先验知识”的情况下,进行自动分类。 聚类为探索性分析方法 根据数据自动分类 事先不用给出分类的标准 聚类方法不同,结果有可能不同 聚类的几何表达 对于单一指标或两指标聚类,可以在一维或二维空间中将样本点的分布直观表达 例:商厦的客户评分数据 1.2 距离和相似系数 聚类分析是根据相似性和差异性来进行 距离是事物之间差异性的测度 相似系数则是其相似性的测度 (1)距离测量方法 以对样本的聚类为例: 样本若有n个变量,则可以将样本看成是一个n维空间的一个点,样本之间的距离就是n维空间点与点之间的距离 定距变量个体间距离 欧氏距离:Euclidean distance 平方欧氏距离:Squared Euclidean distance 切比雪夫距离:Chebychev 绝对距离:Bock 明考斯基距离:Minkowski 两种简单的距离计算公式 举例 欧式距离的优缺点 优点:几何意义明确,简单 缺点:a 受指标量纲的影响;b 没有考虑指标之间的相关性 (2)相似系数的计算 夹角余弦 相关系数 夹角余弦 相关系数 1.3 类间距离 最近邻居d=d1 最远邻居d=d2 组间平均锁链d=(d1+d2)/2 组内平均锁链d=(d1+d2+d3)/3 重心距离 离差平方和法 1.4 数据标准化 变量存在数量级上的差异 标准化方法 标准差的标准化 假定有n个样本,m个变量,则可以建立一个原始数据矩阵X 标准差的标准化 对矩阵X的按列进行标准化,公式为 1.5 系统聚类分析 基本思路 Q型与R型聚类 Q型聚类举例 R型聚类举例 基本思路 根据对象之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式(Agglomerative Clustering),将对象分类,直到最后所有对象都聚成一类 先将m个聚类对象各自看成一类 然后计算各类之间的距离或相似系数 根据指标的密切程度,将关系最密切的两类并成一类 重新计算新的各类间归类系数 再将关系最密切的类归并 如此直到所有对象都成一类为止 Q型与R型聚类 Q型聚类:聚类对象为样品(或称记录、观察值、case),将差异大的样本区分开 R型聚类:聚类对象为指标(或称变量,value),在相似变量中选择少数代表性变量进行分析,降维目的 Q型聚类 根据商厦客户的评分,对商厦进行分类 R型聚类 儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。由于微量元素的测定成本高、耗时长,故希望筛选代表性指标,以便更经济快捷地评价儿童的营养状态 1.6 应用实例 根据类间距离的计算方式: 最短距离法聚类——最近邻居d=d1 最长距离法聚类——最远邻居d=d2 中间距离法(Median clustering) 重心法(Centroid clustering) 类平均法(Between-groups linkage) 离差平方和法 … 引进日本福冈甜桔的问题 日本福冈甜桔,可供选择的引进地点有:合肥、武汉、长沙、桂林、温州、成都……。 与甜桔生活有关的分析变量包括: 年平均气温 年平均降雨量 年日照时数 年极端最低温 一月份平均气温 七个地点五种变量的数据 计算样本之间两两距离,建立欧式距离矩阵D 找出非对角线元素的最小值,d56=224.27,将第5个样本与第6个样本合并 首先合并第5列和第6列,保留最短距离944.55 然后合并第5行和第6行,原则依然是“两数相遇取其短” 将合并的结果记为第8类 在前述合并结果中找出对角线以外的最小距离,得到d13=247.27,然后重复上述合并过程 在第二次合并的结果中找到最小距离d89=256.04,重复前述合并过程 在第三步合并的结果中,找到最小距离d4,10=282.81,然后重复上述合并过程 在第四步合并的结果中,找到最小

文档评论(0)

xyl118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档