- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
回归分析的基本思想
回归分析(regression analysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。对于一组具有线性相关关系的数据
其中 , , 称为样本点的中心,回归直线过样本点的中心。
回归方程:
线性回归模型:
其中 a 和 b 为模型的未知参数,e 是 y 与 bx+a 之间的误差。通常 e 为随机变量,称为随机误差
与函数关系不同,在回归模型中,y 的值由 x 和随机因素 e 共同确定,即 x 只能解释部分 y 的变化,因此我们把 x 称为解释变量,把 y 称为预报变量。
随机误差 e 的方差越小,用 bx+a 预报真实值y 的精度越高。随机误差是引起预报值与真实值
y 之间存在误差的原因之一,其大小取决于随机误差的方差。
另一方面,和 为斜率和截距的估计值,它们与真实值a 和 b 之间也存在误差,这种误差是引起预报值与真实值 y 之间存在误差的另一个原因。
由于随机误差对于样本点
,所以是 e 的估计量。
它们的随机误差为
其估计值为
称为相应于点的残差(residual)。
可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。以样本编号为横坐标,残差为纵坐标,可作出残差图。
检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用
线性回归模型拟合数据;如没有,则需寻找其它原因。另外,对于已经获取的样本数据,
中 的 越好;
为确定的数。因此越大,意味着残差平方和 越小,即模型拟合效果越小,残差平方和越大,即模型拟合效果越差。
表示解释变量对于预报变量变化的贡献率,
一般地,建立回归模型的基本步骤:
越接近于 1,表示回归的效果越好。
确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)
有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)
按一定规则(如最小二乘法)估计回归方程中的参数;
得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。
回归模型的适用范围:
回归方程只适用于我们所研究的样本的总体;
我们所建立的回归方程一般都有时间性;
样本取值的范围会影响回归方程的适用范围;
不能期望回归方程得到的预报值就是预报变量的精确值。般地,比较两个函数模型的拟合程度的步骤如下:
分别建立对应于两个模型的回归方程
的估计值
分别计算两个模型的 R2 值
与 ,其中 和分别是参数 a 和 b
若 ,则模型 1 比模型 2 拟合效果更好;若 ,则模型 2 比模型 1 拟合效果更好。
独立性检验的基本思想
不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。
利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验(test of independence)。反证法原理与独立性检验原理的比较
反证法原理
反证法原理
独立性检验原理
在假设 H 下,如果推出一个矛盾,就证明了 H 不成立
0
0
在假设 H 下,如果出现一个与 H 相矛盾的小概率事件,就推
0
0
断 H 不成立,且该推断犯错误的概率不超过这个小概率
0
1x2一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{x
1
x
2
, }和{y
, ,其样本频数列联表 称为
y} (1 2
y
} (
2×2 列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
假设 H : X 与 Y 没有关系,即 X 与 Y 独立。
0
则有 P(XY)=P(X)P(Y) ;
根据频率近似于概率,故有
化简得
因此,越小,两者关系越弱;越大,两者关系越强; 基于以上分析,构造随机变量
,其中 为样本容量
K2 的值越小则关系越小,K2 的值越大则关系越大。(实际应用中通常要求 a,b,c,d 都不小于 5) 计算 K2 的观测值 k 并与 K2 作比较。
H统计学研究发现,在 成立的情况下,
H
0
H即在 成立的情况下,K2 的观测值超过 6.635 的概率非常小,近似为 0.01,是一个小概率事件。
H
0
0若观测值 k 大于 6.635,则有理由判定 H 不成立,即“X 与 Y 有关系”。但这种判断会犯错误,犯错
0
误的概率不会超过 0.01 .
*(这里概率计算的前提是 H 成立,即 H
:两个分类变量没有关系)
10 0
1
H)1若要推断的论述为
H
)
1
21
2
:“X
原创力文档


文档评论(0)