- 50
- 0
- 约3.1千字
- 约 8页
- 2019-02-21 发布于湖北
- 举报
实验十 距离判别
一、实验目的和要求
掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS过程解决有关实际问题.
实验要求:编写程序,结果分析.
实验内容:
要求:1题必做,2,3,4题可选1-2题
1.写出几种距离公式,两总体距离判别准则;
维空间两点,
1.欧氏距离
2.明氏距离
3.马氏距离
线性判别函数的估计
(5.5)
两个总体的距离判别准则
(5.6)
或
2.书上5.3
(1)
两总体之间的广义平方距离
线性判别函数 )
常数项 系数向量
得到两总体的马氏平方距离为反映了两总体的分离程度
线性判别函数为
以下结果是误判率的回带估计
以下是交叉确认估计结果:
用交叉确认法也将属于总体的第17和19号样品误判为属于,其余均回判正确,误判率的回代估计为:.
在此问距离判别分析中,西藏、上海、广东的判别结果如下:
可以看到这三个省均以100%的判别概率分到了第二类,也即城镇居民消费指标比较高的类别中,从直观上感觉可能西藏的类别划分不是很准确。以下再进一步进行Bayes判别分析。
(2)
(一)当总体的协方差相等时:
线性判别函数结果如下:
同样在回代估计中结果如下:
交叉确认估计结果如下:
交叉确认法误判率估计=2/27=0.074
三个待判样品的判别结果如下:
也即同(1)都属于第二类。
(二)当总体的协方差不相等时:
此时的交叉确认回判结果如下:
也即21-27号省份都应该属于第一类但误判到第二类了,此时误判率估计=7/27=0.2592
在这种情况下三个样品的判别结果如下:
也即在两总体协方差矩阵不相等的情况下所有省份都属于同一类,三个待判样品也判到了第一类。显然这样的判别结果不是很合乎实际情况。
3.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:
其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)
(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);
(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?
表3 2005经济指标
样品序号
地区
X1
X2
X3
X4
X5
X6
X7
1
北 京
26.91
4.5
31.14
1.88
6.39
17.96
98.99
2
上 海
28
11.7
43.6
1.99
8.57
27.57
99.2
3
天 津
32.9
13.9
60.19
2.2
10.77
21.27
101.98
4
河 北
30.38
10.4
64.01
2.31
5.96
11.28
98.67
5
山 西
37.48
9.4
67.82
1.71
6.82
7.93
97.85
6
内蒙古
43.44
9.8
64.32
2.08
7.94
16.34
98.23
7
辽 宁
28.76
7.5
59.33
2.15
2.78
14.19
99.86
8
吉 林
29.48
8.5
60.57
2.11
3.45
12.29
99.45
9
江 苏
24.34
11.3
59.67
2.29
4.89
15.97
99.41
10
浙 江
24.85
13.4
57.41
2.92
5.28
24.62
99.72
11
安 徽
34.54
11.2
62.83
2.18
6.15
11.77
98.89
12
福 建
28.87
11.9
56.16
2.38
5.74
15.38
99.49
13
江 西
27.21
9.7
69.38
2.01
4
8.86
99.49
14
山 东
36.59
15.8
60.18
2.55
10.83
18.17
99.06
15
河 南
31.9
10.2
65.62
2.06
5.34
8.83
98.61
16
湖 北
33.27
9.2
57.34
1.69
9.05
13.68
99.63
17
湖 南
37.13
12.7
67.23
2.07
4.24
12.71
99.52
18
广 西
31.64
10.8
62.91
2.09
5.88
10.42
99.69
19
海 南
35.44
11.7
54.23
1.97
10.95
14.26
101.3
20
重 庆
25.95
8.2
58.92
1.58
3.71
8.34
99.38
21
四 川
36.29
9.1
6
原创力文档

文档评论(0)