- 27
- 0
- 约5.1千字
- 约 11页
- 2016-12-25 发布于重庆
- 举报
应用多元分析——聚类分析5.1解:判别分析是根据一定的判别准则,判定一个样本归属于哪一类,用具体的数学语言来表达就是,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体),中的某一类,且它们的分布函数分别为通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并对测得同样p项指标(变量)数据的一个新样本,能判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。而聚类分析是指,在聚类之前,我们并不知道判别标准,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体,即进行量化分类。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.3解:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点,点之间的距离即可代表样品间的相似度,将距离近的归为一类,距离较远的点归为不同类。常用的距离为:(一)闵可夫斯基距离:q取不同值,分为(1)绝对距离()(2)欧氏距离()(3)切比雪夫距离()(二)马氏距离(三)兰氏距离对变量的相似性进行度量的时候,因为多元数据中的变量表现为向量的形式,在几何上可以用多维空间的一个有向线段表示,相对于数量的大小,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作p维空间的向量,一般用:夹
原创力文档

文档评论(0)