- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《多元统计分析》课程主成分分析和聚类分析法的教学难点
在师范教育中,许多困难时期的学生很难理解。如果对方法理解不透, 只是套用一些公式, 不懂得变通地应用到实际问题中, 将会产生误差, 可能得出错误的结论。如何把对多变量处理的方法结合在一起应用, 使学生能较好的掌握这些方法, 本文试图在这方面作一些探讨。
实际问题中, 研究多指标 (变量) 问题是经常遇到的, 然而在多数情况下, 不同指标之间往往具有一定的相关性。由于指标较多再加上指标之间有一定的相关性, 势必增加了分析问题的复杂性。而解决这种情况的一个有效途径就是采用主成分分析的方法。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标, 同时根据实际需要从中取几个较少的综合指标, 尽可能多的反映原来指标的信息。由于主成分分析方法能浓缩信息, 简化指标的结构, 使分析问题的过程简单、直观、有效, 所以广泛应用于各个领域。人们经常利用主成分分析方法综合评价企业或事业单位的经济效益、技术进步状况, 并收到了良好的效果。本文把主成分分析和聚类分析结合在一起应用, 对解决实际问题有一定的帮助。下面采用一个案例来分析改进前后的效果差异。
1 率较高时的排序
在主成分分析法中, 当第一主成分F1的方差贡献率较高 (一般85%以上) 时, 可以认为该主成分所能反映的信息与原有p个变量提供的信息差不多, 此时可以按第一主成分的得分进行排序评估。
1.1 构造主成分综合得分
在很多情况下, 第一主成分F1的方差贡献率不够高, 需要考虑多个主成分F1, F2……, Fr为了对样品进行排序, 常用的方法是以各个主成分Fi的方差贡献率αi为权数, 构造主成分的“综合得分”为:
然后根据这个公式把样本的主成分综合得分计算出来, 并将其排序。
这种综合得分计算看起来非常合理, 似乎可以提高信息含量, 即增加方差的贡献率, 其实只是一种错觉, 通过计算H的方差可以发现, 有可能得出完全相反的结论。
从这个推导过程我们发现综合得分的方差比第一主成分F1的方差还小, 这说明综合主成分得分所含信息量比第一主成分所含信息量还少。
1.2 聚类分析方法
对于多指标系统评估中的排序问题, 如果第一主成分F1的方差贡献率不够大, 即第一主成分表达的原始数据信息不够大, 仅按第一主成分得分对样品排序评价会有片面性。这时候可以将主成分分析与聚类分析两种统计方法结合起来, 采用“主成分聚类分析法”。
聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的一种方法, 尽管聚类分析可以将多个指标的数据进行很好的分类, 但并不能得到各优劣程度的评价结果。
主成分聚类的思想是首先做主成分分析, 再取若干主成分对样品进行聚类分析, 结合第一主成分得分排序对样品进行分类排名。由此得到一种新的综合评价方法, 具体做法如下:
设按照累计贡献率选定前r个主成分, 并计算主成分得分:
对所选定的新的数据矩阵 (F1, F2, …, Fr) 进行系统聚类。然后计算各类中样品的均值得分来确定类间的排序;最后根据类中样品第一主成分得分, 确定各类中样品的排序, 得到综合评价。
2 主成分聚类分析
湖北省黄冈市横跨湖北东北部, 地域辽阔, 人口众多, 下辖10各县市区, 南部县市濒临长江, 交通便利, 北部北区交通闭塞, 基础设施较落后, 所以整个地区社会经济发展不平衡。我们现在用这个主成分聚类分析对其发展情况进行分析。
下面表1为湖北省黄冈市各县市区2006年的经济社会发展的原始数据。
先将原始数据标准化, 然后用软件SPSS进行主成分分析, 得到结果如表2。
从上表中, 我们发现选取前两个主成分, 方差的累计贡献率就达到了88.373%。前两个特征值对应的特征向量如表3。
通过Fi=a1iX1+a2iX2+…+apiXp, 可以计算出样本在前两个主成分上的得分, 并通过贡献率加权求出“综合得分”见表4。
根据两上主成分得分进一步利用SPSS进行聚类分析, 得到结果如下:
{浠水县, 蕲春县, 黄梅县, 麻城市};
{红安县, 罗田县, 团风县, 英山县};
{黄州区, 武穴市}。
计算出各类中的样本得分均值可以将三类进行排序:
第一类, {黄州区, 武穴市};
第二类{浠水县, 蕲春县, 黄梅县, 麻城市};
第三类{红安县, 罗田县, 团风县, 英山县}。
我们发现第一类得分都较高, 是黄冈发达地区, 这与实际情况也是相符的, 黄州区是黄冈市行政机关所在地, 经济发展比较活跃;武穴紧邻长江, 交通便利, 经济基础较好。第二类浠水、蕲春、黄梅和麻城规模较大, 都有一定的基础, 是黄冈经济发展较好的地区。第三类红安、罗田、团风和英山有些是革命老区、有些是立县时间短, 基础非常薄弱, 交通不便, 是黄冈经济最落后的地
文档评论(0)