网站大量收购独家精品文档,联系QQ:2885784924

第11章 统计分析PPT.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第11章 统计分析PPT

* 数据仓库与数据挖掘 * 11.1.1 线性回归模型的参数估计 y1 y2 ... ... yn = 1 x11 x12 .. x1k 1 x21 x22 .. x2k 1 xn1 xn2 .. xnk β0 β1 β2 βk + u1 u2 ... un y1 y2 ... ... yn = 1 x11 x12 .. x1k 1 x21 x22 .. x2k 1 xn1 xn2 .. xnk β0 β1 β2 βk * 数据仓库与数据挖掘 * 11.1.1 线性回归模型的参数估计 知道 线性回归就是根据因变量和自变量的已知数据对回归系数进行估计,求取回归系数 在参数估计时,通常还是采用最小二乘法,即使得因变量以及自变量之间的平方和达到最小值. P211 * 数据仓库与数据挖掘 * 11.1.1 线性回归模型的参数估计 回归系数的估计值为 (j=0,1,2,…,k)可以通过下述方式计算 其中 数据仓库与数据挖掘 数据仓库与数据挖掘 * 数据仓库与数据挖掘 * 第11章 统计分析 * 数据仓库与数据挖掘 * 11.1 线性回归模型 11.1.1 线性回归模型的参数估计 11.1.2 线性回归方程的判定系数 11.1.3 线性回归方程的检验 11.1.4 统计软件中的线性回归分析 11.1.5 SQL Sever 2005中的线性回归应用 * 数据仓库与数据挖掘 * 11.1 线性回归模型 回归分析研究什么? 研究某些实际问题时往往涉及到多个变量。在这些变量中,有一个变量是研究中特别关注的,称为因变量,而其他变量则看成是影响这一变量的因素,称为自变量。 假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,那么,就可以利用这一模型根据给定的自变量来预测因变量,这就是回归要解决的问题。 * 数据仓库与数据挖掘 * 11.1 线性回归模型 回归分析研究什么? 在回归分析中,只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。 如果因变量与自变量之间是线性(自变量一次方出现)关系,则称为线性回归(linear regression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinear regression) * 数据仓库与数据挖掘 * 11.1 线性回归模型 怎样分析变量间的关系? 建立回归模型时,需要弄清楚变量之间的关系。 变量之间是什么样的关系? 变量之间的关系强度如何? * 数据仓库与数据挖掘 * 11.1 线性回归模型 相关关系 子女的身高与其父母身高的关系 从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响 一个人的收入水平同他受教育程度的关系 收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响 * 数据仓库与数据挖掘 * 11.1 线性回归模型 相关关系 一个变量的取值不能由另一个变量唯一确定 各观测点分布在直线周围 y ? ? ? ? ? x ? ? ? ? 当变量 x 取某个值时, 变量 y 的取值对应着一个分布 * 数据仓库与数据挖掘 * 11.1 线性回归模型 用散点图描述相关关系 * 数据仓库与数据挖掘 * 11.1 线性回归模型 为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。 绘制散点图描述销售收入与广告费用之间的关系 实验内容 相关系数 r = ? * 数据仓库与数据挖掘 * 11.1 线性回归模型 相关系数的度量 性质1: r 的取值范围是 [-1,1] |r|=1,为完全相关,r =1,为完全正相关,r =-1,为完全负正相关。 r = 0,不存在线性相关关系 -1r0,为负相关,0r1,为正相关。 |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱 * 数据仓库与数据挖掘 * 11.1 线性回归模型 相关系数的经验解释 |r|?0.8时,可视为两个变量之间高度相关 0.5?|r|0.8时,可视为中度相关 0.3?|r|0.5时,可视为低度相关 |r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关 上述解释必须建立在对相关系数的显著性进行检验的基础之上 * 数据仓库与数据挖掘 * 11.1 线性回归模型

文档评论(0)

erfg4eg + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档