- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.回归分析-国立高雄第一科技大学图资馆大数据资源网Bigdata
(一)最優子集回歸法 求出所有自變量可能組合子集的回歸方程的模型(共有2m-1個),按一定準則選擇最優模型,常用的準則有: ①校正決定係數(考慮了引數的個數) ②Cp準則(C即Criterion,p為所選模型中自變量的個數;Cp接近p+1的模型為最優) ③AIC(Akaike`s Information Criterion)準則;AIC 越小越好 s2是σ2的無偏估計 最優子集法的局限性 如果自變量個數為4,則所有的回歸有24-1=15個;當自變量個數為10時,所有可能的回歸為 210-1=1023個;…… ;當自變量個數為50時,所有可能的回歸為250-1≈1015個。 (二)逐步選擇法 1. 前進法(Forward Selection) 2. 後退法(Backward Elimination) 3. 逐步回歸法(Stepwise Regression)。 它們的共同特點是每一步只引入或剔除一個自變量。決定其取捨則基於對偏回歸平方和的F檢驗 方程中參數的估計 可用最小二乘法求得 也就是求出能使估計值和實際 觀察值的誤差平方和為最小值 的一組回歸係數值。 (一)模型的參數估計 求回歸係數b1,b2,……,bm的方法是求解正規方程組 常數項: 27名糖尿病患者的血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)、空腹血糖(y)的測量值列於表中,試建立血糖與其它幾項指標關係的多元線性回歸方程。 例: 序號 x1 x2 x3 x4 y 1 5.68 1.9 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.6 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.9 8.5 12.6 8.5 11.1 8 7.08 3 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8 10.1 17 6.4 2.4 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.5 6.21 3.47 12.3 16 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.2 10.5 20 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.2 6.45 9.6 10.4 各變量的離差矩陣 lij = x1 x2 x3 x4 y x1 66.0103 67.3608 -53.9523 31.3687 67.6962 x2 67.3608 172.3648 -9.4929 26.7286 89.8025 x3 -53.9523 -9.4929 350.3106 -57.3863 -142.4347 x4 31.3687 26.7286 -57.3863 86.4407 84.5570 y 67.6962 89.8025 -142.4347 84.5570 222.5519 求解後得: 各變量均值分別為: 則常數項為: 線性回歸模型為: R實戰 licha-function(i,j,mydata) { imean=sum(mydata[,i]) jmean=sum(mydata[,j]) rownum=length(mydata[,i]) mulsum=0 for(k in 1:rownum) { mulsum=mulsum+mydata[k,i]*mydata[k,j] } return(mulsum-(imean*jmean)/rownum) } ibrary(xlsx) mydataframe - read.xlsx(C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx, 1) source(C:\\Users\\hai
文档评论(0)