精简观测站的模型.docVIP

下载本文档

3
0
约1.07万字
约 10页
2017-02-14 发布于重庆
举报
版权申诉

精简观测站的模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

精简观测站的模型

精简观测站的模型第3队张文颖李彦霖王婷婷摘要本文在保留足够信息量的前提下以尽量精简观测站为目标，把每年的降水量作为指标，利用SAS软件首先对观测站进行聚类，然后在所得分类的基础上得到24种不同的组合，利用matlab通过对该地区降水量的期望进行估计，将精简前和精简后所得到的期望值进行比较，得出精简后的信息量，其中最大信息量对应的组合为最优组合，即要保留的观测站。本文分为模型一和模型二，模型一是用平均值来表示降水量的期望，得到最优组合为1，2，3，5，6，8，12，对应的信息量为97.5%；模型二是用区间估计降水量期望，得到最优组合为1,2,3,7,8,10,11 ，对应的信息量为88.27%。关键词聚类区间估计 t分布置信区间置信度问题提出某个地区有12个气象观测站，已知这些观测站的地理位置和它们10年来所测得的年降水量。现在为了能够节省开支，想要适当减少气象观测站，应该减少哪些观测站可以使得所得到的降水量的信息量仍然足够大。问题分析在本题中，如果在该地区保留的观测站越多，则所测得的降水量的信息量就会越大，但是开支也会相应较高；如果在该地区保留的观测站的个数较少，则可以节省开支，但这样所测得的降水量的信息量又会较小。于是我们需要在信息量与开支之间寻求一个平衡。由于在地理环境相似的区域，降水量的梯度变化较小，这些区域的观测站所提供的降水量信息会有很大重叠，因此可以缩减这些区域观测站的数量；而在降水量梯度变化较大的区域，观测站所提供的信息会有显著差异，因此这些观测站不可撤除。于是，我们考虑根据观测站10年来观测所得的数据，将观测站进行聚类，分在同一类的观测站处于降水量梯度变化较小的区域，这一类区域可以仅保留一个观测站。模型假设 1．此地区的降水量服从正态分布，即降水量为x的概率为P(x)=。 2．建立一个观测站会花费很大的费用。 3．减少一个观测站可以节省很大的费用。 4．不考虑地理位置对分类的影响。符号表示 xi 表示第i个区域的观测站。i = 1，2，… 12 精简观测站前该地区每年降水量的期望精简观测站后该地区每年降水量的期望区间估计的置信度 [，] 置信度为时的置信区间模型建立与求解模型一通过分析，我们知道：在降水量梯度变化较小的区域，观测站所提供的信息会有很大重叠，这时需要适当减少观测站；而在降水量梯度变化较大的区域，观测站所提供的信息会有显著差异，这些观测站不可撤除。因此我们需要对观测站进行分类。基于以上的问题分析和模型假设，我们建立了以下模型现在，我们以1981—1990这10年所得到的观测数据为指标，对这12个观测站所在的地区进行聚类。利用SAS软件，得到以下结果：伪F统计量（图2）其中， F = 。它用于评价聚为G类的效果。F越大，类间离差平方和与类内离差平方和的比值越大，说明聚为一类的样本越相似，而类间的差异越大，所以应该取伪F统计量较大而类数较小的聚类水平。图2中我们可以看出，当聚为8类时，F 的值达到最大，这说明聚为8类可以使得类间差异与类内差异的比值达到最大；当聚为7类时，虽然F 的值有所减小，但减小的幅度不大，也就是说聚为7类可以多减少一个观测站，并且可以使类间差异与类内差异的比值仍然保持较大；而当聚为6类时，F 的值将有很大幅度的减小，这说明分6类会使类间的差异大幅度减小，故分6类是不合理的。伪T 统计量（图3）其中， T = 它是用来评价聚类后的效果。图3中我们可以看出，当聚为7类时，T 的值较小，这说明由8类聚到7类时，类内样本差异的增量较小；当再由7类聚为6类时，T值突然有较大幅度的增加，这说明若聚为6类，类内样本差异的增量会大幅度增加，故聚6类是不合理的，应该选择分为7类。根据假设4减少一个观测站会节省很大的费用，再结合以上的分析我们可以得出，将观测站所在的区域分为7类既能够最大的节省开支，又可以使所得到的降水量的信息量仍然足够大。结合图1，我们可以得出分类情况如下：类别 1 2 3 4 5 6 7 观测站 1 2 3 4 7 12 5 10 6 11 8 9