- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概述
一. 统计
统计(statistics)一词具有多种含义,它可能指:
用于统计处理的数据,
对数据的统计处理,
使用统计手段收集、分析、解读数据的技术,
关于统计技术的学问,即统计学。
总体与样本
统计数据分为总体数据和样本数据:
总体(population):一组研究对象或者一组观察数据。
样本(sample):从特定总体中选择的一组研究对象或观察数据。
总体数据和样本数据对应的统计量数分别称为参量和统计量:
参量(parameter):对总体的统计学描述。
统计量(statistic):对样本的统计学描述。
比如,一个变量的总体平均数就是一个参量,而该变量的样本平均数就是一个统计量。
统计分析的分类
描述统计和推断统计
统计分析首先根据是否进行统计推断分为描述统计和推断统计两大类。
描述统计(descriptive statistics):对已知数据的特征进行描述的统计方法。
推断统计(inferential statistics):根据样本特征去推断总体特征的统计方法。
比如,总体平均数和样本平均数都属于描述统计,根据样本平均数去推断总体平均数就是推断统计。一般来说,在使用样本的时候总体平均数或其它参量是未知的,这时就需要进行推断统计来获得关于总体的信息了。
单变量分析和多变量分析
统计分析又根据所分析的变量的个数分为单变量分析和多变量分析。
单变量分析(univariate analysis):同时只分析一个变量的统计方法。
多变量分析(multivariate analysis):同时只分析多个变量的统计方法。
比如,根据一个变量的样本平均数去推断总体平均数,这只涉及一个变量,是单变量分析。计算一个变量和另一个变量的相关性,涉及到两个变量,这就是最简单的多变量分析。
以上所述其实并不准确。严格来说,多个因变量才称为多变量分析,一个因变量多个自变量仍然称为单变量分析。
参数统计和非参数统计
统计分析又根据其所依赖的基本假设分为参数统计和非参数统计。
参数统计(parametric statistics):已知总体的分布或者对总体的分布有确定假设(一般是正态分布)条件下的统计方法。初等的统计方法一般都是参数统计。
非参数统计(non-parametric statistics):不知晓总体的分布或者对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
广义来说一切科学研究的对象都视作变量,而科学研究的目的就是要尽可能解释这些变量的变异性(variation),或者说就是确定这些变异性的来源。追根究底,一个变量的变异性的来源其实就是其它变量。因此,可以说科学研究就是要弄清变量之间的关系,而模型(model)就是对变量关系的概括。
在自然科学,特别是物理学中,大量的模型是确定性模型(deterministic model),也就是说能够建立变量之间的确定关系。比如牛顿第二定律 a=F/m,通过自变量 F 和 m 就确定了因变量 a,这一模型在经典力学中是没有任何意外情形的。
确定性模型一般都有一定的前提条件。比如经典力学模型只在低速和宏观的情形下成立,在高速(接近光速)和微观的情形下就无法成立。
对数据进行统计分析的目的就是要建立统计模型(statistical model)。比如平均数(Mean)和标准差(Standard Deviation)就是最常见最简单的统计模型,它们用来描述单个变量的集中和变异的特征。
统计模型把变量的变化分为两部分:确定分量(deterministic component)和不确定分量。不确定分量一般称为随机分量(random component)。实际上,随机分量并不见得真的是随机的,只不过是当前的统计模型无法解释它而已。
统计模型和确定性模型的差别在于,确定性模型只包含了确定的部分,而统计模型不只包含了确定的部分,还包含了不能确定的部分。确定性模型之所以能够抛弃不确定分量,只留下确定分量,是因为在一定的条件下它对其中的自变量与因变量的关系提供了机理性的解释。比如自由落体运动模型中,设定下落初速度为零,除重力以外的其它外力为零。 在这个模型中,重力是落体运动的决定性因素。这个模型提供了特定条件下落体运动的完备解释。
统计模型却无法抛弃不确定分量只留下确定分量,这是因为统计模型所给出的变量关系并非一定条件下的完整的机理性解释。比如我们会发现中小学生的年级和身高之间存在一定的相关性,因而可以建立一个用性别和年级来预测学生身高的统计模型。但是这个统计模型本身只是对两个变量之间的数量关系的一个统计描述,并不包含关于学生身高的机理解释。如果我们改成用学生的年龄作为自变量去预测身高,此时具有一定意义上的机理性解释了。但是这个模
文档评论(0)