Bootstrap与jackknife刀切法中文讲解.pptVIP

下载本文档

56
0
约9.4千字
约 56页
2019-02-18 发布于浙江
举报
版权申诉

Bootstrap与jackknife刀切法中文讲解.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

上节课内容总结统计推断基本概念统计模型：参数模型与非参数模型统计推断/模型估计：点估计、区间估计、假设检验估计的评价：无偏性、一致性、有效性、MSE 偏差、方差、区间估计 CDF估计：点估计、偏差、方差及区间估计统计函数估计点估计区间估计/标准误差影响函数 Bootstrap Bootstrap也可用于偏差、置信区间和分布估计等计算本节课内容重采样技术（resampling） Bootstrap 刀切法（jackknife）引言是一个统计量，或者是数据的某个函数，数据来自某个未知的分布F，我们想知道的某些性质（如偏差、方差和置信区间）假设我们想知道的方差如果的形式比较简单，可以直接用上节课学习的嵌入式估计量作为的估计例：，则，其中，其中问题：若的形式很复杂（任意统计量），如何计算/估计？ Bootstrap简介 Bootstrap是一个很通用的工具，用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出，用于计算任意估计的标准误差术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” （源自西方神话故事“ The Adventures of Baron Munchausen”，男爵掉到了深湖底，没有工具，所以他想到了拎着鞋带将自己提起来）计算机的引导程序boot也来源于此意义：不靠外界力量，而靠自身提升自己的性能，翻译为自助/自举 1980年代很流行，因为计算机被引入统计实践中来 Bootstrap简介 Bootstrap：利用计算机手段进行重采样一种基于数据的模拟（simulation）方法，用于统计推断。基本思想是：利用样本数据计算统计量和估计样本分布，而不对模型做任何假设（非参数bootstrap）无需标准误差的理论计算，因此不关心估计的数学形式有多复杂 Bootstrap有两种形式：非参数bootstrap和参数化的bootstrap，但基本思想都是模拟重采样通过从原始数据进行n次有放回采样n个数据，得到bootstrap样本对原始数据进行有放回的随机采样，抽取的样本数目同原始样本数目一样如：若原始样本为则bootstrap样本可能为计算bootstrap样本重复B次， 1. 随机选择整数，每个整数的取值范围为[1, n]，选择每个[1, n]之间的整数的概率相等，均为 2. 计算bootstrap样本为： Web上有matlab代码： BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, .au/downloads/bootstrap_ toolbox.html Matlab函数：bootstrp Bootstrap样本在一次bootstrap采样中，某些原始样本可能没被采到，另外一些样本可能被采样多次在一个bootstrap样本集中不包含某个原始样本的概率为一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632，另外0.368的样本没有包括模拟假设我们从的分布中抽取IID样本，当时，根据大数定律，也就是说，如果我们从中抽取大量样本，我们可以用样本均值来近似当样本数目B足够大时，样本均值与期望之间的差别可以忽略不计模拟更一般地，对任意均值有限的函数h，当有则当时，有用模拟样本的方差来近似方差模拟怎样得到的分布？已知的只有X，但是我们可以讨论X的分布F 如果我们可以从分布F中得到样本，我们可以计算怎样得到F？用代替（嵌入式估计量）怎样从中采样？因为对每个数据点的质量都为1/n 所以从中抽取一个