3极值分布的统计推断.docVIP

下载本文档

19
0
约4.04千字
约 9页
2017-09-01 发布于重庆
举报
版权申诉

3极值分布的统计推断.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3 极值分布的统计推断统计推断就是依据样本推断总体分布的未知部分。本章只讨论在已知总体分布为极值分布或属于极值分布最大值吸引场情况下，如何估计其中的未知参数或其它数值特征，如高分位数、尾部特征，如何进行模型的检验等问题。依照统计学中惯用的记号，以……表示一个随机样本，,……，表示相应的观测值。前者强调所处理的是独立同分布的随机变量，后者则强调它们是一组实数值。 3.1数据的经验分析给定数据集合,……，，统计分析的目的之一是寻找一个较好的模型拟合这些数据。为寻求合适的模型，首先必须了解这些数据的统计特征。我们从散点图开始，因为图形醒目直观，尤其对于大型数据集合，更是如此。数据的散点图由点（，），=1,2，……组成，从图上可粗略估计数据是否平稳（见4.1节）。如果平稳，再进一步确认数据是独立同分布还是存在相关性。大多数情况下，可以假定数据是独立同分布的。样本的数字特征能从不同角度综合反映数据的概况，最常用的就是样本的q阶原点矩（moment of order q about the origin）,它是观测值q次幂的算术平均和q阶中心矩(central moment of order q),它是观测值与它们算术平均之差的q次幂的算术平均其中表示样本均值，即一阶原点矩。一阶中心矩等于零，二阶中心矩即样本方差，记为，S称为样本标准差。通过样本矩估计总体分布未知参数的方法，既是通常所说的参数矩估计。样本偏度系数是3阶中心矩与标准差3次幂的比，即若偏度系数小于0，则该分布是一种左偏的分布，又称为负偏。若偏度系数大于0，则该分布是一种右偏的分布，又称为正偏。样本偏度系数是4阶中心矩与标准差4次幂的比，即 ? 也是常用的数字特征，它是分布形状的另一种度量。2.5节已提到正态分布的峰度为3.若，表示分布有较厚的尾部，说明样本含有较多远离均值的数据，即通常所说的“尖峰后尾”，金融数据大部分是以峰度判定它的后尾性的。若对总体分布没有多少认识，样本经验分布不失为一个较好的选择。假定是次序统计量，则样本经验分布函数为 ? 有了经验分布函数，不难得到样本分位数函数。即经验p分位数，特别，对连续的分布函数F，我们有，其中k=1,……，n即是经验p分位数。例如95%经验分位数就是，其中[ y ]表示y的整数分布。如果选择适当的分布作为样本的总体分布，则必须与经验分布在某种度量上尽可能一致，许多模型就是基于F和的这种比较。 3.3广义极值分布的参数估计本节主要讨论GEV分布三个参数的各种估计方法，包括最常用的极大似然估计、概率权矩估计和L矩估计。由于极大似然估计的优良性质，R中的极值统计包括如evir，evd和ismev提供的GEV分布参数估计的函数都是基于极大似然方法的。最后还探讨了参数的bayes估计以及自助（bootstrap）方法，ebdbayes包主要处理参数的bayes估计，至于自助法，可以进一步参阅其他书籍，R中boot包提供了更多关于自助法的函数。 3.3.1GEV模型的建立由定理2.2可知，GEV分布为区组最大值提供了一个理想的模型。为此首先按等长度对数据进行分组，并以GEV分布作为区组最大值序列的模型。区组大小的选择是关键问题，这需要权衡偏和方差：区组过小使得由定理2.1得到的极限模型与实际模型有较大差别，导致一个有偏估计；区组过大，只能得到少量的区组最大值，由此得到的统计量有较大方差。在实际应用中，如果只是记录了年最大值，自然形成最大值序列。如果记录的是每日观测值，一般按年度分组，此时定理2.1独立同分布的条件不满足，它们可能是相关的，但年最大值可以认为是满足定理2.1的条件。例如，日温度随季节而变化，这不满足具有相同分布的假定。如果将数据以3各月为一季分组，夏季的最高温度将远大于冬季的最高温度，这种没有考虑到非齐次性的推断会得到不准确的结论。但如果是以年度分组，由于不同姐姐的日温度各有不同的分布，GEV分布作为年最高温度近似分布的理由似乎不是很充分，但各个区组最大值有共同分布的假定却是可以将接受的。为简单起见，记区组最大值序列为且假定是含有未知参数的GEV分布的独立观测值。极值模型参数估计方法，包括图形法、矩法、L矩法以及基于似然估计的各种方法。每种方法均有其优劣，但极大似然法是一个比较好的，且是对复杂模型具有易适应性的方法。 3.3.2极大似然估计假定是服从GEV分布的独立随机变量，当时，GEV分布的对数似然函数为这里要求否则似然函数值为零，对应的对数似然函数值为-∞ 当时，对数似然函数为式（3.7）。将式（3.21）关于参数向量（）极大化，得到GEV分布的极大似然估计.尽管不存在解析解，但对给定的数据，用数值算法可得到极大似然估计值，注意这里始终要求式（3.22）成立。