- 11
- 0
- 约 11页
- 2016-05-03 发布于湖北
- 举报
第九章 聚类分析与判别分析
在实际工作中,我们经常遇到分类问题.若事先已经建立类别,则使用判别分析,若事先没有建立类别,则使用聚类分析.
聚类分析主要是研究在事先没有分类的情况下,如何将样本归类的方法.
聚类分析的内容包含十分广泛,有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法.
§9.1 聚类分析基本知识介绍
在MATLAB软件包中,主要使用的是系统聚类法.
系统聚类法是聚类分析中应用最为广泛的一种方法.它的基本原理是:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,然后重复进行,直到所有的样品都合成一类.衡量亲疏程度的指标有两类:距离、相似系数.
一、常用距离
1)欧氏距离
假设有两个维样本和,则它们的欧氏距离为
2)标准化欧氏距离
假设有两个维样本和,则它们的标准化欧氏距离为
其中:表示个样本的方差矩阵,,表示第列的方差.
3)马氏距离
假设共有个指标,第个指标共测得个数据(要求):
于是,我们得到阶的数据矩阵,每一行是一个样本数据.阶数据矩阵的阶协方差矩阵记做.
两个维样本和的马氏距离如下:
马氏距离考虑了各个指标量纲的标准化,是对其它几种距离的改进.马氏距离不仅排除了量纲的影响,而且合理考虑了指标的相关性.
4)布洛克距离
两个维样本和的布洛克距离如下:
5)闵可夫斯基距离
原创力文档

文档评论(0)