- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主成分分析及聚类分析太湖水质评价应用与解析
基于主成分分析及聚类分析太湖水质评价应用与解析
摘#8195;要 本文利用SPSS软件,将主成分分析运用于部分年份太湖水质的评价分析,并用k均值聚类及分层聚类的方法对分析结果进行了佐证。本文在此仅作为样本间的优劣比较和定性分析,并据此解析其变化趋势。
关键词 主成分分析;聚类分析;SPSS;太湖水质
中图分类号 X824 文献标识码 A 文章编号 1673-9671-(2011)121-0105-02
在研究复杂的实际问题时,往往需要对影响事物的多个变量进行大量的观测,这样的研究方法在提供丰富信息的同时,其许多变量间都存在相关性,因而统计数据反映的信息在一定程度上有重叠。利用主成分分析可以很好的解决这一问题。
主成分分析和聚类分析在各领域都有广泛的应用,利用SPSS软件进行数据处理后即可得到建模参数,计算后一般可获得比较清晰且可信的分析结果。本文仅以2000年后太湖水质评价分析为例,说明主成分分析在实际问题中的运用,此外,利用聚类分析为主成分分析的结果提供参考和佐证。
1 原理
1.1 主成分分析
主成分分析可以通过变量变换的方法将众多线性相关的指标转换为少数线性无关的指标,在保证信息比较完整的情况下实现对数据的降维,便于进行评价分析。
1.2 聚类分析
聚类分析一般用样本或变量间的空间距离和相似系数,来描述差异的大小,进而归类。基本原则就是使类内部差异最小的同时类间差异尽量大。
常用的聚类算法有k均值聚类和分层聚类,后者又可分为R聚类(对变量进行聚类)和Q聚类(对样本进行聚类)。
以上分析多可以借助SPSS软件进行。
2 实证分析
水质监测指标包括了水温(WT)、水深、透明度(SD)、高锰酸盐指标(CODMn)、溶解氧(DO)、总氮(TN)、硝态氮(NO3-N)、总磷(TP)、化学耗氧量(CODcr)、水中氨氮含量指标(NH3-N)、五日生化需氧量(BOD5)以及重金属等。根据前人的论文研究,在上述指标中选取了水质分析比较重要的六类指标作为本文的分析数据。
注:数据引自于太湖水资源保护局2000-2005《太湖流域及东南诸河地区省界水体水资源质量状况通报》
2.1 主成分分析
2.1.1 数据处理
将表1数据经过标准化处理,利用得到的系数矩阵可以求解出协方差矩阵,进而求得特征值及特征向量。将特征值按照由大到小的顺序依次排列,同时求出每个成分对方差的贡献率和累积贡献率,得到特征值及累计贡献率表(表2)。
由表2进行分析可以发现,第一主成分所占据的方差贡献率达到了54.88%,第二主成分的方差贡献率达到31.36%,两者累加超过了总方差
注:特征向量为各主成分载荷值除以对应的主成分特征值开平方后的值得到
的85%,因此只提取前两个因子取代总共6个指标是完全可行的,它们已经提供了绝大部分的信息,利用其得出的结论也是可靠的。
2.1.2 数据计算
根据主成分的计算公式可以得到主成分分析表达式:
F1=0.516X1+0.309X2+0.521X3+0.444X4+0.391X5-0.209X6
F2=0.223X1-0.584X2+0.223X3-0.363X4+0.432X5-0.490X6
以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重,可以计算得到主成分综合模型,具体如下:
F=0.637F1+0.363F2
#8194;=0.410X1-0.015X2+0.413X3+0.151X4+0.406X5-0.311X6
将标准化后的数据带入等式,可以得到各年的综合得分。
注:得分越高说明水质越差
2.1.3 结果分析
由表4数据可以看到,水质最差的是2005年,最好的是2001年,根据评价得分可以发现太湖水质基本在逐年变差。出现这一情况主要由人类社会经济活动引起。
仅通过成分载荷矩阵,各因子系数的差别还不是非常明显,因此可以对数据用Varimax方差最大旋转,使系数向0和1两极分化,便于因子分析。根据处理后的载荷图结合成分矩阵我们可以认为,主成分1与高锰酸盐指数和总磷有着极为密切的关系,这些指标均会引起水体富营养化,因此可以称成分1为“富营养化因子”;主成分2与水中氨氮含量、溶解氧及五日生化需氧量有较强的联系,因此可以称成分2为“耗氧量因子”。结合各成分对方差的贡献值大小进行判断,显然,太湖水质受CODMn和TP因素的影响更大一些,防治时应予以重点关注。
2.2 聚类分析验证
2.2.1 k-均值聚类
根据表1聚类转换得到表5,可见第二类数据普遍较低,第一类次之,
原创力文档


文档评论(0)