- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识点归纳梳理
二、随机抽样简单随机抽样
定义:设一个总体含有N个个体,从中逐个不放回地抽取〃个个体作为样本(WAO,如果每次抽 取时总体内的各个个体被抽到的机会都担笠,就把这种抽样方法叫做简单随机抽样.
最常用的简单随机抽样的方法:抽签法和随机数法.
系统抽样的步骤假设要从容量为N的总体中抽取容量为〃的样本.
先将总体的N个个体编号;确定分段间隔奴对编号进行坦当% 是样本容量)是整数时,取k=—
在第1段用简单随机抽样确定第一个个体编号l(lWk);按照一定的规则抽取样本.通常是将I加上间隔化得到第2个个体编号(/+外,再加k得到第3个 个体编号(/+2比),依次进行下去,直到获取整个样本.
分层抽样定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量 的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
⑵分层抽样的应用范围:
当总体由差异明显的几个部分组成时,往往选用分层抽样.
三、用样本估计总体1 .作频率分布直方图的步骤
求极差(即一组数据中最大值与最小值的差).
⑵决定组距与组数.
将数据分组.
列频率分布表.
画频率分布直方图,频率分布折线图和总体密度曲线
频率分布折线图:连接频率分布直方图中各小长方形上端的典,就得到频率分布折线图.
总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会 越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3 .茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来 的数.
标准差和方差标准差是样本数据到平均数的一种平均距离.
标准差:
s= y:[(xi- X F + S- x )2+X )2].
方差:s2=^[(x\— x )2+(%2- X )2(x〃一 x )2](x,?是样本数据,n是样本容量,x是样本平均数).
【知识拓展】1 .频率分布直方图的特点
频率 顽?频率频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示靠,频率=组距X
频率 顽?
频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所 以各小长方形高的比也就是频率比.
频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.
平均数、方差的公式推广若数据西,X2,…,的平均数为x ,那么jwc2~\~a,…,mxn-\~a的平均数是 m x ~\~a.
数据尤1,12,…,的方差为砂.
数据力+s X2~\~a,…,Xn~\~a的方差也为$2;数据QX1,CIX2,…,QX〃的方差为。2$2.
四、变量间的相关关系、统计案例两个变量的线性相关
⑴正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正 相关.
负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系, 这条直线叫做回I归直线.
回归方程⑴最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
回归方程
AAA方程y =b x+a是两个具有线性相关关系的变量的一组数据(xi,yi),(出 处),…,(而” 为)的回归 方程,其中,h是待定参数.
第2页共5页n n
a 插3?一工)Cv/- y ) 蓍尤游一〃 * y b =插(为一X )2 站对一〃 X 2
回归分析定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
样本点的中心对于一组具有线性相关关系的数据01, yi), (*2, %), ???,(, y〃),其中(x, y )称为样本点的中 心.
相关系数当,〉。时,表明两个变量正相关;
当云0时,表明两个变量负相关.
,的绝对值越接近于1,表明两个变量的线性相关性越魅尸的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常Irl大于0.75时,认为两个变量有很强的线性相关性.
独立性检验分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和匕它们的可能取值分别为{工1,珂}和31,y2},其样本频数列联表(称为2X2列联表)为
2X2列联表
yi
y2
总计
X1
a
h
X2
c
d
c+d
总计
a~\~c
b+d
o+8+c+d
构造-个随机变量x=(m)(*斜泌+以其中〃=也心为样本容量.
独立性检验利用随机变量庄来判断“两个分类变量有关系”的方法称为独立性检验.
第3页共5页五、随机事件的概率
概率和频率(1)在相同的条件S下重复
文档评论(0)