- 61
- 0
- 约7.32千字
- 约 13页
- 2019-07-02 发布于江西
- 举报
代号:145
PAGE
PAGE 1
观测站的优化问题
摘要
本文是为了解决有关观测点的优化问题,即为达到减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小的目地。本文采用层层推进的方法,对问题逐一求解,具体如下:
针对问题1,本文先将观测点7,8的数据通过SPSS做相关性分析,得出其具有显著正相关的结论,并以观测点8为自变量,7为因变量,构建线性回归模型,用matlab解得到观测点7的回归方程,得出观测点7可以减少,其数据可由观测点8得到的结论。
针对问题2,本文先用分层聚类法,以各类间欧氏距离尽可能远,组内距离尽可能近为原则将剩余9个观测点分组,再以组内成员多于一个的组剔除一个成员为准则,在分别构建回归函数,并用SPSS里的F检验验证回归方程是否显著,最终得到可以去掉观测点2,6,7的结论。
针对问题3,本文先通过EXCEL处理数据,利用问题1,2中得到的回归方程计算出减少观测点前后的误差绝对值。然后本文基于假设建立误差绝对值的正态分布模型,用极大似然估计法给出正态分布均值和方差的点估计值,并用ttest对假设显著性进行检验,组后得出假设成立的结论。最后通过正态分布累计概率计算公式算得误差绝对值小于10mm的概率约为0.777,大于20mm的概率为0.0555。
最后,本文对模型中分组问题作了讨论,并结合实际做了的优缺点进行了评价,提出了细化分组的改进方案,对模型进行了简单的推广。
关键词:回归分析,相关性分析,分层聚类,极大似然估计
问题的提出与重述
问题的提出:
某市有10个县,每个县有一个气象观测站,每个气象观测站测得的年降水量即为该县的年降水量。30年来各观测站测得的年降水量如附表1。为了节省开支,想要适当减少气象观测站,但希望减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小。请你选出这些观测站。
问题的重述:
1.第7个观测站和第8个观测站观测到的数据之间可能有相关关系,所以第7个观测站可以减少,第7个观测站的年降水量信息可以从第8个观测站观测到的数据中获取,问如何得出,并予以讨论。
2.除了观测点7还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。
3.如果以10个县年降水量的平均值为该市年平均降水量。在减少观测站以前,每个县年降水量都是观测数据。在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?误差的绝对值大于20mm的概率是多少?
问题的分析
本题是希望选取一些作用不大的观测站,并予以淘汰。要求既可以节省开支,又可以使得该市年降水量的信息量损失较小。本文需要做的是找出哪些观测点间相关性大并发现相关观测点间的降雨量关系。
针对问题1本文先通过SPSS中的相关性检验来验证两观测点间是否相关性较大,然后通过构建回归模型得到观测点7的回归方程,从而可以通过观测点8得出观测点7的降雨量数据。
针对问题2本文先用分层聚类法对剩下9个观测点进行分组,初步得出分为4组和每组的成员,然后在多于一个成员的组任意选出一个要剔除的观测点,通过构建回归模型通过每组中留下的点得出除去的观测点的回归方程,并用F法检验其是否服从原假设(是否舍去)。
针对问题3 本文列出未减少观测站时的年平均降水量。再用减少后的观测站得出年平均降水量,求其差,得到误差绝对值。然后假设误差绝对值服从正态分布,通过matlab数据分析检验假设的正确性,最后通过正态分布累计概率公式计算出题中要求结果。
模型假设
(1)假设这段时间内该地区没有洪涝灾害,干旱等自然灾害的影响;
(2)假设每个观测点成本都是一样的,不存在拆除观测点时成本不一的问题;
(3)不考虑其他地区对该地区的影响。
符号及变量说明
:第个观测点的实际降雨量(=3,8,10);
:第个观测点估测的降雨量(=2,4,6,7);
:回归拟合得到的系数(=1,2);
其他符号会在文中说明
模型的建立与求解
5.1.1对于问题一的模型建立
根据题意,本人先用SPSS对观测点7、8测得的年降水量数据进行相关性分析,分析结果如表1:
表1
相关性
7
8
7
Pearson 相关性
1
.952**
显著性(双侧)
.000
平方与叉积的和
509175.467
451818.667
协方差
17557.775
15579.954
N
原创力文档

文档评论(0)