- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分散共分散と相关系数
重回帰分析
回帰分析では単一の説明変数(独立変数)を用いて単一の目的変数(従属変数)を予測することを考えた。
重回帰分析では複数の説明変数を用いて単一の目的変数を予測することを考える。また、個々の説明変数が目的変数に対してどの程度影響を与えているかを表すこともできる。
データの例(寿命と医療費?たんぱく質摂取量)
年度 平均寿命 医療費の割合 たんぱく質摂取量 Y X1 X2 1955 65.70 3.27 69.70 1960 67.80 3.06 69.70 1965 70.30 4.22 71.30 1970 72.00 4.10 77.60 1975 74.30 5.26 81.00 1980 76.20 6.18 78.70 平均 71.05 4.35 74.67 標準偏差 3.60 1.09 4.58 回帰分析で何がわかるか?
『平均寿命に対して、医療費とたんぱく質摂取量は何らかの効果を持っている』というモデルは有効であるか?
もしモデルが有効であるなら、平均寿命に対して、医療費とたんぱく質の摂取量はどのような効果を、どれくらい持っているか? またそれらの効果は“統計的に有意である”か?
重回帰分析では次のような重回帰式を前提にして考える。
ここでを偏回帰係数(partial regression coefficient)と呼ぶ。また、この例のように各変数の単位が異なる場合には、それぞれの変数を標準化(平均を0に、分散を1に)して求めた標準偏回帰係数を計算する。
したがって、医療費の方がたんぱく質摂取量に比べて平均寿命に及ぼす影響が大きいといえる。
回帰分析の結果の要約(統計パッケージの出力例)
従属変数 : LIFE
R= R^2= 調整済R^2= β 標準誤差β B 標準誤差B t(3) p-値 切片 39.29043 11.56307 3.397924 .042526 MED .627072 .242962 2.07682 .80467 2.580942 .081713 PROT .387017 .242962 .30440 .19110 1.592909 .209429 F(2,3)=25.025 p.01345 推定値の標準誤差: 1.2105
Rは重相関係数(multiple correlation)と呼ばれ、観測値と予測値の相関係数のこと。
R2は決定係数と呼ばれ、重相関係数の2乗であるが観測値と予測値、残差(観測値から予測値をひいたもの)のそれぞれの平方和には次のような関係が成り立つ。
もし予測値が観測値に非常に近ければ残差平方和はゼロに近づくので次のようにをで割ったものが1近いほど“よい予測値”ということになる。そこで、この比を決定係数と名付け“あてはまりの良さ”の指標とする。
観測値?予測値と残差
観測値 予測値 残差 標準化予測値 標準化残差 1 65.70000 67.29862 -1.59863 -.97951 -1.32062 2 67.80000 66.86250 .93751 -1.09338 .77447 3 70.30000 69.75864 .54136 -.33718 .44721 4 72.00000 71.42718 .57282 .09848 .47321 5 74.30000 74.87126 -.57126 .99776 -.47191 6 76.20000 76.08180 .11819 1.31384 .09764 最小 65.70000 66.86250 -1.59863 -1.09338 -1.32062 最大 76.20000 76.08180 .93751 1.31384 .77447 平均 71.05000 71.05000 -.00000 .00000 -.00000 中央値 71.15000 70.59291 .32978 -.11935 .27243 決定係数と自由度調整済み決定係数
決定係数は“あてはまりの良さ”を示す値であるが、説明変数を増やすと単純に増加してゆくという性質を持っている。
したがって“役に立たない説明変数”であっても、付け加えることにより、名目上の“予測の精度”はどんどんと上昇する。
これでは役に立たないので、標本数や説明変数の数を考慮にいれた決定係数をもちいる。これが“自由度調整済み決定係数”である。
自由度調整済み決定係数()と決定係数()の間には次のような関係がある。
ただし、Nは標本数、pは説明変数の数
データ例(“役に立たない変数:
文档评论(0)