- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精简观测站的模型
精简观测站的模型
第3队 张文颖 李彦霖 王婷婷
摘要 本文在保留足够信息量的前提下以尽量精简观测站为目标,把每年的降水量作为指标,利用SAS软件首先对观测站进行聚类,然后在所得分类的基础上得到24种不同的组合,利用matlab通过对该地区降水量的期望进行估计,将精简前和精简后所得到的期望值进行比较,得出精简后的信息量,其中最大信息量对应的组合为最优组合,即要保留的观测站。本文分为模型一和模型二,模型一是用平均值来表示降水量的期望,得到最优组合为1,2,3,5,6,8,12,对应的信息量为97.5%;模型二是用区间估计降水量期望,得到最优组合为1,2,3,7,8,10,11 ,对应的信息量为88.27%。
关键词 聚类 区间估计 t分布 置信区间 置信度
问题提出
某个地区有12个气象观测站,已知这些观测站的地理位置和它们10年来所测得的年降水量。现在为了能够节省开支,想要适当减少气象观测站,应该减少哪些观测站可以使得所得到的降水量的信息量仍然足够大。
问题分析
在本题中,如果在该地区保留的观测站越多,则所测得的降水量的信息量就会越大,但是开支也会相应较高;如果在该地区保留的观测站的个数较少,则可以节省开支,但这样所测得的降水量的信息量又会较小。于是我们需要在信息量与开支之间寻求一个平衡。由于在地理环境相似的区域,降水量的梯度变化较小,这些区域的观测站所提供的降水量信息会有很大重叠,因此可以缩减这些区域观测站的数量;而在降水量梯度变化较大的区域,观测站所提供的信息会有显著差异,因此这些观测站不可撤除。于是,我们考虑根据观测站10年来观测所得的数据,将观测站进行聚类,分在同一类的观测站处于降水量梯度变化较小的区域,这一类区域可以仅保留一个观测站。
模型假设
1.此地区的降水量服从正态分布,即降水量为x的概率为P(x)=。
2.建立一个观测站会花费很大的费用。
3.减少一个观测站可以节省很大的费用。
4.不考虑地理位置对分类的影响。
符号表示
xi 表示第i个区域的观测站。i = 1,2,… 12
精简观测站前该地区每年降水量的期望
精简观测站后该地区每年降水量的期望
区间估计的置信度
[,] 置信度为时的置信区间
模型建立与求解
模型一
通过分析,我们知道:在降水量梯度变化较小的区域,观测站所提供的信息会有很大重叠,这时需要适当减少观测站;而在降水量梯度变化较大的区域,观测站所提供的信息会有显著差异,这些观测站不可撤除。因此我们需要对观测站进行分类。
基于以上的问题分析和模型假设,我们建立了以下模型
现在,我们以1981—1990这10年所得到的观测数据为指标,对这12个观测站所在的地区进行聚类。利用SAS软件,得到以下结果:
伪F统计量(图2)
其中,
F = 。
它用于评价聚为G类的效果。F越大 ,类间离差平方和与类内离差平方和的比值越大,说明聚为一类的样本越相似,而类间的差异越大,所以应该取伪F统计量较大而类数较小的聚类水平。
图2中我们可以看出,当聚为8类时,F 的值达到最大,这说明聚为8类可以使得类间差异与类内差异的比值达到最大;当聚为7类时,虽然F 的值有所减小,但减小的幅度不大,也就是说聚为7类可以多减少一个观测站,并且可以使类间差异与类内差异的比值仍然保持较大;而当聚为6类时,F 的值将有很大幅度的减小,这说明分6类会使类间的差异大幅度减小,故分6类是不合理的。
伪T 统计量(图3)
其中,
T =
它是用来评价聚类后的效果。
图3中我们可以看出,当聚为7类时,T 的值较小,这说明由8类聚到7类时,类内样本差异的增量较小;当再由7类聚为6类时,T值突然有较大幅度的增加,这说明若聚为6类,类内样本差异的增量会大幅度增加,故聚6类是不合理的,应该选择分为7类。
根据假设4减少一个观测站会节省很大的费用,再结合以上的分析我们可以得出,将观测站所在的区域分为7类既能够最大的节省开支,又可以使所得到的降水量的信息量仍然足够大。
结合图1,我们可以得出分类情况如下:
类别 1 2 3 4 5 6 7 观测站 1 2 3 4 7 12 5 10 6 11 8 9
文档评论(0)