- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Matlab软件包与多元回归
回归分析的方法以及“回归(Regress)”这个名称的起源,统计学史上一般归功于英国生物学家、统计学家Francis Galton(著名的Darwin的表哥,cousin of Charles Darwin)。
Francis Galton(1822~1911) K. Pearson(1857~1936)
问题:考察人体的某项指标,比如说:身高。
假设父辈的身高为,孩子的身高为,身高具有遗传性,,但是,父辈的身高又不能完全决定孩子的身高。局部说来,父辈是高个子,子女也是高个子,父辈是矮个子,子女也是矮个子。总体观察,这个结论不对(否则,长期进化之后,人类的身高应该两极分化:很高的人与很矮的人)。
F Galton的学生K Pearson观察了1078对夫妇,以每对夫妇的平均身高为,取他们的一个成年儿子的身高为,全体父母身高的平均值吋。
K Pearson观察得到:①父母的身高中等,即,(吋)时,(吋),看起来遗传起作用;②父母的身高较高时,(吋)时,(吋),子女的身高变小了;③父母的身高较矮时,(吋)时,(吋),子女的身高变大了。观察说明,父母的身高到了高和矮的边界时,总有某种力量将子女的身高拉向中心平均值,这就叫回归(Regress)。正是由于这种现象,Galton用“Regress”一词来描述与的关系,尽管,这种“向中心回归”的现象只在特殊的领域观察得到,不具有普遍性,但是,统计学界使用习惯了,所以,沿用至今。
回归(Regress)的这种性质,可以得到理论上的说明。设,,的相关系数,则可以证明,线性回归方程中的系数满足,当时,,这一点解释了Galton指出的“Regress”现象:父辈身高的方差,子女身高的方差,在一代之间变化不大,故可以假设。于是,令,,从线性回归方程得到:,以及,这样,就可以得到对于具体的,有,从可以看出:当时,尽管,,也增加,但是,增加一个单位,并不相应增加一个单位,相当于打了折,这就解释了“向中心回归”的现象。
注:在许多实际问题中有,此时,“向中心回归”的现象就不存在了。
(一)一般多元回归
一般在生产实践和科学研究中,人们得到了参数和因变量的数据,需要求出关系式,这时就可以用到回归分析的方法。如果只考虑是线性函数的情形,当自变量只有一个时,即,中时,称为一元线性回归,当自变量有多个时,即,中时,称为多元线性回归。
进行线性回归时,有4个基本假定:
待定参数(系数)是线性关系;
残差是独立的;
残差满足正态分布。
残差满足方差奇性(所谓方差齐性指的就是我们要比较的几组数据是独立的、且服从同方差的正态分布);
在Matlab软件包中有一个做一般多元回归分析的命令regress,调用格式如下:
[b, bint, r, rint, stats] = regress(y,X,alpha) 或者
[b, bint, r, rint, stats] = regress(y,X) 此时,默认置信度alpha = 0.05。
这里,y是一个的列向量,X是一个的矩阵,其中第一列是全1向量(这一点对于回归来说很重要,这一个全1列向量对应回归方程的常数项),一般情况下,需要人工造一个全1列向量。回归方程具有如下形式(待定参数具有线性关系):
其中,是残差。
在返回项[b,bint,r,rint,stats]中,
①是回归方程的系数;
②是一个矩阵,它的第行表示的(1-alpha)可信区间;
③是的残差列向量;
④是矩阵,它的第行表示第个残差的(1-alpha)可信区间;
注释:残差与残差区间杠杆图,最好在0点线附近比较均匀的分布,而不呈现一定的规律性,如果是这样,就说明回归分析做得比较理想。
一般的,返回4个值:值、F_检验值、阈值,与显著性概率相关的值(如果这个值不存在,则,只输出前3项)。注释:
(1)一般说来,值越大越好。
(2)人们一般用以下统计量对回归方程做显著性检验:F_检验、t_检验、以及相关系数检验法。Matlab软件包输出F_检验值和阈值。一般说来,F_检验值越大越好,特别的,应该有F_检验值。
我国著名统计学家许宝禄(1910~1970)教授证明:F检验有多方面的优良性。
(3)与显著性概率相关的值应该满足。如果,则说明回归方程中有多余的自变量,可以将这些多余的自变量从回归方程中剔除(见下面逐步回归的内容)。
这几个技术指标说明拟合程度的好坏。这几个指标都好,就说明回归方程是有意义的。
例1(Hamilton,1987)数据如下:
序号
Y
X1
X2
1
12.37
2.23
9.66
2
12.66
2.57
8.94
3
12.00
3.87
4.40
4
11.93
3.10
您可能关注的文档
最近下载
- 2023年江苏省苏州高新区招聘“两新”组织党建专职党务工作者6人考前自测高频考点模拟试题(共500题)含答案详解.docx VIP
- 2025腾讯视频综艺营销手册.docx
- 2024年人教高一主题班会课件:例1《开学第一课》(共47张PPT).ppt VIP
- 庞中华钢笔字帖(行楷)《最新》.doc
- 实验小学学生写字水平考级活动方案及考级标准.docx
- Cinema4D动画实战项目教程高职全套完整教学课件.pptx
- 急性心肌梗死后心脏破裂早期临床识别与防治讲解.ppt
- 2024年教育行业商业计划书.docx
- 《哪吒之魔童闹海》开学第一课收心哪吒2主题班会课件课件(图文).pptx VIP
- 自旋霍尔效应.ppt
文档评论(0)