- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一部分统计案例
1变量之间的相关关系
(1) 相关关系是当自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系。
(2) 变量的确定性关系与非确定性关系。
确定性关系:即我们所熟悉的变量间的函数的关系;
非确定性关系:即变量之间虽然有密切关系,但是这种关系却无法用确定的函数关系式表达,变量之间 的这种非确定性关系,称为相关关系。
(3) 应注意相关关系是一种非确定性关系,它和函数关系不同。
判断两个变量是否具有相关关系,应先看它们是否有关,再看这种关系是否是确定的函数关系。
例、在下列各组变量中:(1 )正方体的体积与棱长;(2) —块农田的水稻产量与施肥量; (3)人的身高
与年龄;(4)家庭的支出与收入;(5)某户家庭的用电量与电价。 其中量与量之间是相关关系的是那几组?
2、求回归直线方程
①制作散点图,判断线性相关关系 ②求回归直线方程的系数
n
迟 Xiyi — nxy b =亠
{ 2 -2
Z x —nx
i —
a = y _bx
(x,y)。y,(x,y)称为样本点中心,回归直线经过样本点中心 n i
(x,y)。
将所给的数据x, y列成相应的表格,如下表所示:
序号
Xi
yi
2
Xi
2
yi
Xi yi
1
X1
y1
2
X1
2
y1
X1 y1
2
X2
y2
2
X2
2
y2
X2 y2
n
Xn
yn
2
xn
2
yn
Xn yn
Z xi
为yi
迟Xi2
工yi2
为 Xi yi
③写出线性回归方程: y =bx ? a例1、某连锁经营公司所属 5个零售店某月的销售额和利润额资料如下表
商店名称
A
B
C
D
E
销售额x(千万兀)
3
5
6
7
9
利润额y(百万兀)
2
3
3
4
5
(1) 画出散点图.观察散点图,说明两个变量有怎样的相关性。
(2) 用最小二乘法计算利润额 y对销售额x的回归直线方程.
⑶ 当销售额为4(千万元)时,估计利润额的大小?
y (百万元)
TOC \o 1-5 \h \z ■a a ti o.
x(千万元
x(千万元)
3、残差分析:
e = y
e = yi - yi 为残
、 八 人 人 、找 A A
差,由 yi =bXi *a,所以 e =yi -bXj -a。
A A A
残差分析:我们通过残差 ? , e2,…,en来判断原始数据是否存在可疑数据,这方面的分析工 作称为残差分析。
残差图:我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选样本编号或解 释变量的数据,这样做出的图形称为残差图。
残差图分析:残差图是一种散点图,若残差点比较均匀地落在水平的带状区域中,说明选 用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合程度越高,若残差点的分布在其他形 状的区域中,则说明所选用的回归模型不是最好的,有改进的余地。
4、相关指数R2
n 2
迟 ? -yj
R2 T -早 R2 (0,1)
、? -yj2
i 4
①R2得知越大,说明残差平方和越小,则模型拟合效果越好;
②R2越接近于1,,则回归效果越好。
例2、已知某种商品的价格 x (元)与需求量y (件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏。
6、 分类变量
分类变量也称为属性变量或定性变量,它的不同“值”表示个体所属的不同类别。分类变量的取 值一定是离散的,而且不同取值仅表示个体所属的类别,如性格变量,只取男、女两个值,商品的等 级变量只取一级、二级、三级等,
7、 列联表
列联表是两个或两个以上分类变量的汇总统计表,书中仅限于研究两个分类变量的列联表,并且 每个分类变量只取两个值,这样的列联表称为 2 2列联表。
(1) 一般地假设两个分类变量 X和Y,它们的值域分别为<,x1,x^?和:yi,y2?,其样本频数列联 表为下表;
y1
y2
总计
X1
a
b
a + b
X2
c
d
c + d
总计
a +c
b+d
a +b +c + d
(2) 列联表有助于直观地观测数据之间的关系;
(3) 列联表是列出的两个分类变量的频数表,由列联表的频数,可以粗略看出变量之间是否有关或 者存在差异。
8、 等高图
与表格相比,图形能更直观地反映出相关数据的总体状态。
(1) 直接观察两个等高条形图中各部分所占比例即可粗略判断 X与Y有关系的可能性大小
(2) 等高条形图的条高表示某个体所属类别在另一个变量中所占百分比,不能显示频数。
9、 独立性检验
(1) 独立性检验:利用随机变量 K2来确定在多大程度上可以认为“两个分类变量有关系”的方法, 称为两个分类变量的独立性检验。
(2) 检验指标K2
般地假设两个分类变量 X
文档评论(0)