- 1、本文档共153页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap6多元统计综合评价之聚类判别综合评价
多元统计方法与分类综合评价
聚类分析法
判别分析法
一、聚类分析定义
将具有相似(similarity)性质(或距离)
的个体(样本)聚为一类,具有不同性质
的个体聚为不同的类。
聚类分析的实质是建立一种分类方法,它
能够将一批样本数据按照他们在性质上的
亲密程度在没有先验知识的情况下自动进
行分类。
这里所说的类就是一个具有相似性的个体
的集合,不同类之间具有明显的区别。
二、聚类分析的类别
聚类分析所使用方法的不同,常常会得
到不同的结论。不同研究者对于同一组
数据进行聚类分析,所得到的聚类数未
必一致。因此,聚类分析是一种探索性
的分析方法。
聚类分析有对个案(样本)Q型和变量R
型聚类
根据分类对象的不同,聚类分析法有
“样品分类”与 “指标分类”两种。
样品分类又称 “Q型聚类”,指标分类又
称 “R型聚类”。
根据方法不同,聚类分析有 “系统聚类
法”、 “K -均值法”、 “分解法”、
“加入法”、 “有序样品聚类”、 “动
态聚类法”、 “灰色系统聚类法”、
“神经网络聚类法”、 “模糊聚类法”
等。
三、基本思想
首先将n个样品各成一类,根据亲疏程度
或者相似程度,将最相似的一对合并成
一个新类,并计算出所得新类和其他各
类的相似程度;
重复2,直至将所有的样品都合并成一类;
绘制聚类谱系图 。
注:亲疏程度或者相似程度用样品与样品之间
的距离和类与类之间的距离或相关系数衡量。
四、亲疏程度的计算
聚类的时候会涉及到两种类型亲疏程度
的计算:一种是样本数据之间的亲疏程
度,一种是样本数据与小类、小类与小
类之间的亲疏程度。
1.样本数据之间的亲疏程度测量
样本数据之间的亲疏程度主要通过样本
之间的距离、样本间的相似系数来度量。
样本若有k个变量,则可以将样本看成是
一个k维的空间的一个点,样本和样本之
间的距离就是k维空间点和点之间的距离,
这反映了样本之间的亲疏程度。
聚类时,距离相近、越相似的样本属于
一个类,距离远的样本属于不同类。
(1)实践中常用的距离统计量有:绝对距离、
欧氏距离、明氏距离、马氏距离、B模距离、
切比雪夫距离、兰氏距离、切氏距离等。
①绝对距离dij (1)(Block)。
p
dij (1) xik x jk
k 1
②欧氏距离 dij (2) (Euclidean)(广泛)
p
dij (2) (xik x jk )2
k 1
若不开方,则称为“平方欧几里德距离”。
③切氏距离(Chebychev )。
dij () max xik x jk
(1k p )
④明氏距离(Minkowski)。
p 1/q
q
dij (q) xik x jk
k 1
显然,这一距离包含了绝对距离、欧氏距离、
切氏距离。
⑤兰氏距离(Lance Willians),又称坎贝拉
(Canberra )距离。
1 p x x
dij (L ) ik jk
p k 1 x ik x
文档评论(0)