- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析例题
聚类分析例题
酿酒葡萄的等级划分
葡萄酒的质量分类
由问题 1 中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过 excel 计算出每位评酒员对每支酒的总分,然后计算出每支酒的 10 个分数的平均值,作为总的对于这支酒的等级评价。
通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表 5)。
表 5:葡萄酒等级表
等级
特优
优
优良
良
及格
不及格
分数
95-100
90-94
80-89
70-79
60-69
0-59
在问题 2 的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出 5 个等级,为了方便计算, 我们还对等级进行降序数字等级(见表 6)。
表 6:细化后的葡萄酒等级表
等级
偏优
偏优良
良
中
及格
分数
80-84
75-79
70-74
65-69
60-64
数字等级
5
4
3
2
1
通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):
表 7:各支葡萄酒的等级
编号
红酒
原等级
细化等级
白酒
原等级
细化等级
1 号
68.1
2
2
77.9
3
4
2 号
74
3
3
75.8
3
4
3 号
74.6
3
4
75.6
3
4
4 号
71.2
3
3
76.9
3
4
5 号
72.1
3
3
81.5
4
5
6 号
66.3
2
2
75.5
3
4
7 号
65.3
2
2
74.2
3
3
8 号
66
2
2
72.3
3
3
9 号
78.2
3
4
80.4
4
5
10 号
68.8
2
2
79.8
3
4
11 号
61.6
2
1
71.4
3
3
12 号
68.3
2
2
72.4
3
3
13 号
68.8
2
2
73.9
3
3
14 号
72.6
3
3
77.1
3
4
15 号
65.7
2
2
78.4
3
4
16 号
69.9
2
3
67.3
2
2
17 号
74.5
3
3
80.3
4
5
18 号
65.4
2
2
76.7
3
4
19 号
72.6
3
3
76.4
3
4
20 号
75.8
3
4
76.6
3
4
21 号
72.2
3
2
79.2
3
4
22 号
71.6
3
3
79.4
3
4
23 号
77.1
3
4
77.4
3
4
24 号
71.5
3
3
76.1
3
4
25 号
68.2
2
2
79.5
3
4
26 号
72
3
3
74.3
3
3
27 号
71.5
3
3
77
3
4
28 号
79.6
3
4
经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。
考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量 对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然 后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。
建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方 法中的 ward 最小方差法,又叫做离差平方和法。
聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。为了将样品进行分类,就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作 P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。面对现在的问题, 我们不知道元素的分类,连要分成几类都不知道。现在我们将用 SAS 系统里面的 stepdisc 和 cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。
建立数据阵,具体数学表示为:
? X
X ? ? 11
... X
...
?
1m ? (5.2.1)
? ... ... ?
??? X ... X ?
?
?
n1 nm
式中,行向量 X
i
? (x
i1
,..., x
im
) 表示第i 个样品;
列向量 X
j
? (x
1 j
,..., x
nj
) ’,表示第 j 项指标。(i=1,2,…,n;j=1,2,…m)
接下来我们将要对数据进行变化,以便于我们比较和消除纲量。在此我们用了使用最广范的方法,ward 最小方差法。其中用到了类间距离来进行比较, 定义为:
D ?|| X
kl k
? X ||2 /(1/ n
k
?1/ n )
l
(5.2.2)
Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。
系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何 确定类的个数,这是一个十分困
文档评论(0)