- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九课 建立回归模型之一: 模型的选择与验证
9.1 建模程序概觀 資料蒐集 實驗控制 具有共變異的實驗控制 確定性的觀察研究 探索性的觀察研究 資料準備 模型預選之研究 減少解釋變數 實驗控制 具有共變異的實驗控制 確定性的觀察研究 探索性的觀察研究 模型精煉與選擇 模型驗證 9.2 外科單位案例 9.3 選擇模型之準則 假設子集中納入的預測變數有p – 1個,此一迴歸函數將有p個參數,同時 (9.1) 另外必須假設觀測值的個數必然大於最大的潛在參數個數: (9.2) 或SSEp準則 準則相當於採用誤差平方和SSEp當作評估準則,在SSEp準則下,SSEp越小表示該子集越好,兩者的等價性源自於(6.40): (9.3) 或MSEp準則 由於 的計算過程並未利用到迴歸模型的參數個數,且當參數個數p增加時,max( )並不會因此而減少,所以可以根據(6.42),另外定義一種經調整過的複判定係數準則 : (9.4) Mallows’ Cp 準則 此一準則係根據每一個被考慮的子集,其n個配適值的總均方誤差而定,均方誤差的概念與每一個配適值的總誤差有關: (9.5) 總誤差是由一個偏誤成份加上一個隨機誤差成份所 組成: 1. 第i個配適值 的偏誤成份又稱為模型誤差成份,定義為: (9.5a) 其中, 是在給定模型下第i個配適值的期望值,當配適值不正確時, 將與真實平均反應值 不同,其差距則代表模型的配適偏誤。 2. 的隨機誤差成份定義為: (9.5b) 上式代表給定樣本其配適值 與本身期望值之離差,此處的期望值是以同一個迴歸模型下,配適出所有可能的樣本,所得到的第i個配適值之平均。 根據(9.5)可以定義出均方誤差,透過: 上式取期望值後為: (9.6) 其中,代表配適值的變異數。 因此n個配適值的總均方誤差為: (9.7) 我們用符號 表示此一準則量,然後將(9.7)的總均 方誤差除以真實的誤差變異數 : (9.8) 假設在所有P – 1個潛在的預測變數均為經過仔細考 慮下應納入的變數,則MSE(X1, …, Xp-1)為 的不 偏估計量,而可以證明出的估計量為: (9.9) 其中,SSEp為配適了p個參數後的迴歸模型之誤差 平方和,當p – 1個X變數之迴歸模型沒有偏誤時, ,則此時Cp的期望值將接近p: (9.10) AICp與SBCp準則 主要是用以判斷新增的預測變數是否適當,其定 義如下: (9.14) (9.15) PRESSp準則 第i個個案的PRESS預測誤差為: (9.16) 而PRESSp準則是指n個個案之平方預測誤差總和, (9.17) 9.4 選擇模型的自動搜尋程序 最佳子集演算法 逐步迴歸法 前進逐步迴歸 1. 逐步迴歸習慣上是先對所有的P – 1個潛在X變數,一一配適簡單線性迴歸模型,在每一個簡單線性迴歸模型中,透過t*統計量(2.17)來一一檢定斜率是否為零: (9.18) 3. 在我們的例題中,只有變數X7需要被考慮剔除,所以僅需使用一次t*統計量: (9.19) 在逐步迴歸重複不斷進行的過程中,統計量將可能會出現多個,這時我們將優先剔除具有最小統計量的變數,或是等價關係中最大P-值的變數。 其他逐步程序 前進選擇法 後退消去法 9.5 關於選擇模型的自動搜尋程序最後幾點說明 9.6 模型驗證 利用蒐集新資料驗證模型 驗證效力的方法 衡量所選擇模型的真實預測能力,其中一個方法是用該模型來預測新資料下的每一個個案,然後計算均方預測誤差,也就是平方預測誤差之平均,用符號MSPR表示: (9.20) 其中, Yi 為第i個驗證個案的反應變數值 為根據建模資料下的第i個驗證個案之預測值 n*為驗證資料的個案數 重複研究的困難 理論、實證與模擬之比較 資料切割 * ? The McGraw-Hill Companies, Inc., 2005 * ? The McGraw-Hill Companies, Inc., 2005 第 9 章 建立迴歸模型之一:模型的選擇與驗證 * ? The McGraw-Hill Companies, Inc., 2005
文档评论(0)