- 1
- 0
- 约7.67千字
- 约 16页
- 2025-05-26 发布于广西
- 举报
主成分分析与Fisher最优分割法的结合应用
主成分分析计算步骤
算相关系数矩阵
在上式中,rij〔i,j=1,2,…,p〕为原变量的xi与xj之间的相关系数,其计算公式为
因为R是实对称矩阵〔即rij=rji〕,所以只需计算上三角元素或下三角元素即可。
2.计算特征值与特征向量
首先解特征方程,通常用雅可比法〔Jacobi〕求出特征值,并使其按大小顺序排列,即;然后分别求出对应于特征值的特征向量。这里要求=1,即,其中表示向量的第j个分量。
3.计算主成分奉献率及累计奉献率
主成分的奉献率为
累计奉献率为
一般取累计奉献率达85—95%的特征值所对应的第一、第二,…,第m〔m≤p〕个主成分。
4.计算主成分载荷
其计算公式为
得到各主成分的载荷以后,还可以进一步计算,得到各主成分的得分
二.Fisher最优分割法的聚类步骤
设某一类G包含的样品有,记为。该类的均值向量为
用表示这一类的直径,常用的直径有:
2.定义分类损失函数
用表示将n个有序样品分为k类的某一种分法,常记分发为:
其中分点为。
定义上述分类法的损失函数为
3.的地推公式
费希尔算法最核心的局部是利用以下俩个地推公式:
4.最优解的求法
假设分类数,求分类法,使它在损失函数意义下达最小,其求法如下:
首先找分点,使地推公式达极小,即
于是得第k类。然后找,使它满足
得到地k-1类。类似的方法一次可以得到所有类,这就是我们所求的最优解,即
总之,为了求最优解,主要是计算
和
三.具体事例的分析
〔中学生身体四项指标的主成分分析〕在某中学随机抽取某年级30名学生,测量其身高,体重,胸围和坐高,数据见下表:
序号
1
148
41
72
78
2
139
34
71
76
3
160
49
77
86
4
149
36
67
79
5
159
45
80
86
6
142
31
66
76
7
153
43
76
83
8
150
43
77
79
9
151
42
77
80
10
139
31
68
74
11
140
29
64
74
12
161
47
78
84
13
138
49
78
83
14
140
33
67
77
15
137
31
66
73
16
152
35
73
79
17
149
47
82
79
18
145
35
70
77
19
160
47
74
87
20
156
44
78
85
21
151
42
73
82
22
147
38
73
78
23
157
39
68
80
24
147
30
65
75
25
157
48
80
88
26
151
36
74
80
27
144
36
68
76
28
141
30
67
76
29
139
32
68
73
30
148
38
70
78
1.主成分分析
首先,创立TXT文件,将数据纯入并保存,命名lyzbok.txt。
然后创立各个M文件〔lyzstd.m总和和标准化矩阵;lyzfac.m计算相关系数矩阵,特征值和特征向量,特征根排序,奉献率,主成分数,主成分载荷等相关操作;lyzscore.m计算得分;lyzprint.m输出最终结果〕。
最后,在Matlab窗口键入以下语句,并最终显示器结果。
lyzprint(lyzbook1.txt,30,4)
fid=
6
标准化结果如下:
v1=
76
相关系数矩阵:
std=
1.0000-0.16890.9831-
特征向量(vec)及特征向量(val):
vec=
val=
0.0147000
00.037600
001.63810
特征根排序:
奉献率:
newrate=
主成分数:2
主成分载荷:
计算得分:
score=
0.02570.0600
0.04240.1106
0.02150.05940.080914.0000
从数据中可以得出,第一主成分与第二主成分的奉献率之和高达98.69%,因此只需要用俩个主成分就能很好的概括这组数据,进而由俩个特征值所对应的特征向量可以写出第一和第二主成分:
由上可知,第一和第二主成分都是标准化好的变量的线性组合。
第二主成分得分对第一主成分得分的散布图
由散布图可以大致的看出可以将数据分成四组。
2.Fisher最优分割法
在主成分分析的根底上可知第一主成分和第二主成分。进而分别以第一主成分作为数据指标进行Fis
原创力文档

文档评论(0)