高中数学选修3-2第三章统计案例知识点及随堂练习报告方案.doc

高中数学选修3-2第三章统计案例知识点及随堂练习报告方案.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.1 回归分析的基本思想 回归分析(regression analysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。 对于一组具有线性相关关系的数据 其中 , ,称为样本点的中心,回归直线过样本点的中心。 回归方程: 线性回归模型: 其中a和b为模型的未知参数,e是y与bx+a之间的误差。通常e为随机变量,称为随机误差 与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。 随机误差e的方差越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。 另一方面,和为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间存在误差的另一个原因。 由于随机误差,所以是e的估计量。 对于样本点 它们的随机误差为 其估计值为 称为相应于点的残差(residual)。 可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。 以样本编号为横坐标,残差为纵坐标,可作出残差图。 检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。 另外,对于已经获取的样本数据, 中的为确定的数。因此越大,意味着残差平方和越小,即模型拟合效果越好;越小,残差平方和越大,即模型拟合效果越差。 表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好。 一般地,建立回归模型的基本步骤: 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; 画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) 有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程) 按一定规则(如最小二乘法)估计回归方程中的参数; 得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。 回归模型的适用范围: 回归方程只适用于我们所研究的样本的总体; 我们所建立的回归方程一般都有时间性; 样本取值的范围会影响回归方程的适用范围; 不能期望回归方程得到的预报值就是预报变量的精确值。 般地,比较两个函数模型的拟合程度的步骤如下: 分别建立对应于两个模型的回归方程与 ,其中和分别是参数a和b的估计值 分别计算两个模型的R2值 若 ,则模型1比模型2拟合效果更好;若 ,则模型2比模型1拟合效果更好。 3.2 独立性检验的基本思想 不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(test of independence)。 反证法原理与独立性检验原理的比较 反证法原理 在假设H0下,如果推出一个矛盾,就证明了H0不成立 独立性检验原理 在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率 一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 假设H0: X与Y没有关系,即X与Y独立。 则有P(XY)=P(X)P(Y) ; 根据频率近似于概率,故有 化简得 因此,越小,两者关系越弱;越大,两者关系越强; 基于以上分析,构造随机变量 ,其中为样本容量 K2的值越小则关系越小,K2的值越大则关系越大。(实际应用中通常要求a,b,c,d都不小于5) 计算K2的观测值k并与K2作比较。 统计学研究发现,在H0成立的情况下, 即在H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件。 若观测值k大于6.635,则有理由判定H0不成立,即“X与Y有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01 . *(这里概率计算的前提是H0成立,即H0:两个分类变量没有关系) 若要推断的论述为H1:“X与Y有关系”。可以通过频率直观地判断两个条件概率P(Y=y1|X=x1)和P(Y=y1|X=x2)是否相等。如果判断它们相等,就意味着X和Y没有关系;否则就认为它们有关系。由上表可知,在X=x1的情况下,Y=y1的频率为 ;在X=x2的情况下,Y=y1的频率为 。因此,如果通过直接计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系。 利用独立性检验

文档评论(0)

钱缘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档