201102聚类分析.ppt

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
201102聚类分析

聚类分析;例 对10位应聘者做智能检验;例 16种饮料的热量、咖;聚类分析是根据“物以类聚”的道;基本程序:根据一批样品的多个观;思考: ;一、数据的变换处理 所;中心化变换的结果是使每列数据之;2、极差规格化变换 规格化变;经过规格化变换后,数据矩阵中每;经过标准化变换处理后,每个变量;二、样品间亲疏程度的测度 ;变量之间的聚类即R型聚类分析,;1、定义距离的准则 定义距;把n个样本点看成p维空间的n个;(3)闵可夫斯基距离(Mink;(3)闵可夫斯基距离主要有以下;(5)马氏距离 这是印;马氏距离又称为广义欧氏距离。显;例如,假设有一个二维正态总体,;3、相似系数的算法(1)相似系;(2)夹角余弦 ;4、距离和相似系数选择的原则 ;(1)所选择的亲疏测度指标在实;(2)亲疏测度指标的选择要综合;(3)适当地考虑计算工作量的大;三、样本点与类、类与类之间的度;最长距离(Furthest N;??????组间平均连接(Be;组内平均连接法(Within-;重心法(Centroid cl;离差平方和法连接2,41,56;红绿(2,4,6,5)8.75;系统聚类法(层次聚类法):在聚;1、根据样品的特征,规定样品之;3、利用递推公式计算新类与其它;4、在D(1)表再选择最小的非;(二)常用的种类 1;然后 和 被聚为新类 ;03.505.520;03.50;各步聚类的结果:(1,2) ;最短距离法的递推公式 假;2、最长距离法 用最长距离法对;然后和被聚为新类,得:? 0?;最长距离法的递推公式 假;3、中间距离法最长距离最短距离;中间距离法的递推公式 ;(三)确定类的个数 ;总离差平方和的分解2、离差平方;如果这些样品被分成两类;可以证明:总离差平方和=组内离;3、伪F统计量的定义为 ;Pseudo F Statis;(四)主要步骤1、对数据进行变;聚类结果的解释和证实 ;如果是变量聚类分析,聚类分析做;省份x1x2x3x4x5x6x;G1={辽宁},G2={浙江};d61=d(3,4)1=min;d78=min{d71,d72;例2 某公司下属30个企业,;无标题;根据美国等20个国家和地区的信;国家callmovel??fe;无标题;§4 动态聚类(K-均值聚类;用一个简单的例子来说明动态聚类;(a)空间的群点 ;(e) 第二次分类;二、聚类方法系统聚类可以不事先;然后,根据和这三个点???距离远近;动态(快速)聚类步骤1、选择分;选择凝聚点分 ;例3 我国经济发展的总目标是;jjjyjkjz类别 距离be;系统聚类分析 直观;聚类结果主要受所选择的变量影响;聚类要注意的问题 另外就分成多;SPSS相关命令聚类方法的选择;对距离的测度方法选择: E;饮料数据16种饮料的热量、咖啡

文档评论(0)

2017ll + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档