统计分析方法学习总结.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

统计分析方法学习总结

S201505158陈丹妮

一、统计的描述

一般采用以下几种图形描述数据:

直方图:表示几个变量的数据,使人们能够看出这些数目的大体分布或“形状”;

盒形图:比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图);

茎叶图:既展示了数据的分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位

数的数字,叶为较小位数的数字;

散点图:描述的数据有两对连续变量;

定型变量的图:定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,

但可以描绘出它们各类的比例,如:饼图、条形图。

二、汇总统计量

表示位置的汇总统计量:均值(mean):样本值的算术平均值;中位数(median):中间大

小的数(一半样本点小于中位数);(第一或第三)(下、上)四分位数(点)(firstquantile,third

quantile)(分别有1/4或3/4的数目小于它们);k-百分位数(k-percentile);a分位数(acentile):

k-百分位数=k%分位数:有k%的数目小于它;众数(mode):样本中出现最多的数。

表示尺度的汇总统计量:极差(range):极端值之差;四分位间距(四分位极差)

(interquantilerange)四分位数之差;标准差(standarddeviation)方差平方根;方差(variance)

各点到均值距离平方的平均。

三、相关的分布

相关的分布包括:离散分布、连续分布、抽样分布:我们能够利用样本统计量中的(描

述样本的)信息,比如样本均值和样本标准差中的信息,来对(描述总体的)总体参数(比

如总体均值和总体标准差)进行推断(估计、检验等)。

大数定律:阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。其中又分为

独立同分布大数定律(提供了用样本平均数估计总体平均数的理论依据)和贝努力大数定律

(提供了频率代替概率的理论依据)。

中心极限定理:阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。独

立同分布中心极限定理(不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取

容量为n的样本,当n充分大时,则这个样本的总和或平均数是服从正态分布的随机变量)

和德莫佛-拉普拉斯中心极限定理(提供了用正态分布近似计算二项分布概率的方法)。均

值的假设检验包括对于正态总体均值的检验、对于比例的检验

四、各种分析方法

1.列联表分析

列联表变量中每个都有两个或更多的可能取值,称为水平,比如收入有三个水平,观点

有两个水平,性别有两个水平等。列联表的中间各个变量不同水平的交汇处,就是这种水平

组合出现的频数或计数(count)。二维的列联表又称为交叉表(crosstable)。列联表可以有

很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也

会带有定量变量作为协变量。

2.方差分析

方差分析(analysisofvariance,ANOVA)是分析各个自变量对因变量影响的一种方法。

这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。分析

结果是由一个方差分析表表示的。原理为:把因变量的值随着自变量的不同取值而得到的变

化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随

机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自

变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。

3.相关和回归分析

发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。

一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变

量的关系。这种关系一般称为模型(model)。

假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量

组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量

(dependentvariable,responsevariable),而X称为自变量,也称为解释变量或协变量

(indep

文档评论(0)

132****1109 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档