回归分析之模型选择.docVIP

下载本文档

26
0
约1.63千字
约 8页
2017-10-19 发布于重庆
举报
版权申诉

回归分析之模型选择.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

回归分析之模型选择

《应用回归分析》模型选择问题：对于模型，其中用随机数的方法产生组数据，要求，，；；并且由得出。对于这40组随机数据，，我们建立了以下四种模型： ①． ②． ③． ④．运用我们所学的模型选择的准则在①~④中选出最佳模型。一、产生随机数对于这个问题，我们首先要解决的是根据原模型及给定的参数分布产生问题要求的40组随机数，。我们知道在Matlab中，可以利用这个函数来产生一个[0,1]上的随机数，并且R是来自[0,1]的均匀分布，即；我们利用就可以得到一个n行k列的来自均匀分布的随机数组成的矩阵。由此我们可以想到，利用，我们就可以得到，，，我们在它的左侧加入全为1的一列，保存在X中。我们要运用林德贝格-勒维中心极限定理通过均匀分布的随机数来产生上的随机数。的期望和方差分别为1/2和1/12，所以12个相互独立的和的期望和方差分别为6和1。因此只要产生12个上的随机数，计算就得到一个来自的随机数。因此我们得到了40组数据，，将其代入模型就得到了上页中以矩阵形式表示的40组随机数，。二、模型选择准则这里我们有五种模型选取准则： 1、平均平方和准则对于一个选模型，假设模型中含有p个回归变量，记：其中是在此选模型下的残差平方和。计算多个选模型的，我们认为越小的模型效果越好。 2、准则同样的，我们对选模型计算：其中是全模型下的的最小二乘估计。越小，模型效果越好。 3、AIC准则是一个样本，记含有k个参数的模型的似然函数为，的为，则AIC准则要求的值越大，选模型的效果越好。进一步地，在线性模型场合，我们有的值越小越好。 4、CV准则将40组原始数据的第i组数据删去，利用剩下的39组数据对选模型进行最小二乘估计，将第i组数据代入模型中得出。对i=1，2，…，40重复进行上述操作40次，最后计算 CV越小，选模型效果越好。 5、BIC准则其中是全模型下的的最小二乘估计，BIC越小，选模型效果越好。三、模型选择在以上几种准则中需要用到全模型下的一些数据，所以我们先就全模型即第④种模型进行分析。 1、全模型将所有数据导入到Minitab软件中，可以得到：，，由此，在Matlab中利用循环可以求得CV，定义一个阶的用以保存每次得到的，并且输入如下循环语句： for i=1:40 A=X; B=Y; A1=A(i,:); B1=B(i,:); A(i,:)=[]; B(i,:)=[]; R=regress(B,A); Y0=A1*R; Y1(i,1)=Y0; A=X; B=Y; end 于是得到： 2、选模型① 将X的第3、4列删去，然后和上面一样我们可以得到：，由此，（只需将上述循环中的第二行改为A=X(:,[1 2]); B=Y; 即可） 3、选模型② 删去X中的第4列，进行回归，得到：，所以 4、选模型③ 删去X中的第3列，用同样的方法回归，得：，所以四、结论将上述四种模型计算所得的数据统计到同一表格中进行直观比较。模型1 40.16153 1100.552 148.1294 43.27734 1140.154 模型2 1.33421 0.85411 80.51851 1.50043 40.05823 模型3 40.78684 1090.6310 148.9189 45.7901 1129.835 模型4 1.33784 1.98183 81.03945 1.52538 40.78801 从上表我们可以直观地看出选模型②的各项指数都是最小的，因此我们断言，在以上四种模型中，模型②的效果最好。在最初产生随机数y的模型里，，因而我们的原始数据里的影响是几乎可以忽略的，所以我们得出模型②的效果最好这一结论是可信的。