网站大量收购闲置独家精品文档,联系QQ:2885784924

二 应用统计学笔记.docx

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数理统计的基本概念

1.1引论

数理统计的基本任务

统计学以概率论为基础。

概率论和数理统计学干的事情刚好相反,前者研究怎么在已知分布的情况下求各种参数,后者研究怎么在不知道分布的情况下照样把那些参数求出来。

统计学和概率论的区别就是是否已知分布,实际中的问题大部分都没有分布,只有样本,有时候能事前知道分布,但不知道分布中的参数。

理论上,只要对随机现象进行足够多次观测或试验,规律性一定能清楚地呈现出来,但实际允许的观测永远是有限的。因此,就要有效地利用有限的由观测或试验所得的资料,去掉由于资料不足所引起的随机干扰,对所研究的问题作出尽可能精确和可靠的推断。推断必然有不确定性,但我们可以用概率表示这种不确定性。这种以一定概率表明其可靠程度的推断称为统计推断(StatisticalInference)。

数理统计就是研究如何以有效的方法收集、整理和分析受到随机性影响的数据,对所考察的问题作出推断或者预测。

统计学的任务包括:收集数据、整理数据、分析数据,本课只讲分析数据。

数理统计的基本内容

数理统计分为收集数据和统计推断两部分。

数据收集要求经济有效,方法有全面观测、抽样观测及安排特定的试验等。

统计推断只考虑在已给定数据所服从的概率模型条件下,如何通过数据检验选定的模型与实际是否符合、确定模型中某些未知的成分,而不考虑怎样获得这些数据。

推断的基本问题分为参数估计(ParameterEstimation)和假设检验(HypothesisTesting)两大类,主要方法分为参数方法(ParametricMethod)和非参数方法(NonparametricMethod)。

数理统计的基本应用

数理统计是一个应用性很强的数学学科,数理统计方法只是一个辅助性工具,要成功应用还需依赖于一定的专业知识。

在基础和应用研究中,对大量数据的处理,数理统计提供了必需的方法,如最常用的误差分析及建立经验公式的方法。

1.2数理统计的基本概念

总体和样本

在数理统计中,把一个统计问题所研究的全部元素组成的集合称为总体(Population),总体中的每个元素称为个体(Individuality)。

为了研究总体的分布规律,我们不能对整个总体进行观测,只能对总体中随机抽出的一些个体进行观测,譬如抽取了n个个体,得到这些个体的指标值X1,X2,?,Xn

抽样观测得到X1,X2,?,X

这里需要注意两点:

总体没有随机性。

统计中国人口数量,中国的人口总数就是总体,它是一个确定的数字,在确定的时刻并不会变化,没有随机属性,不是随机变量。但是统计人员无法对每个中国公民挨个计数,只能用某种方法抽取总人口的一部分计数,抽出的那一部分人就是样本。样本既可以这么抽,又可以那么抽,使用不同的样本估计出的总人口数是不一样的,所以样本具有随机性,但是总体即中国当下时刻的总人口数量是一个确定的数,它是不变的,尽管不得而知,但没有随机性。

样本具有二重性,既有随机变量的属性,又有数的属性。

在某次具体的观测或试验中,样本是一批测量值,是一组数,所以样本具有数的属性。

当脱离具体的观测或试验时,并不知道样本的具体取值是多少,此时可以将样本看成随机变量,所以样本又具有随机变量的属性。

样本既可以被看成数值,又可以被看作随机变量的属性叫作样本的二重性。

统计学研究的样本是简单随机样本,即具有代表性和独立性的样本。

代表性:对每个个体的观测应在完全相同的条件下进行,即X1,X2,?,X

独立性:每个个体的观测应是独立进行的,即X1,

设总体具有分布函数Fx,样本X

F

实际的抽样是无放回的抽样,理论上无放回会导致每次抽到的概率不相等,但是当抽样的数量不大,而样品总量很大时,少一个样品对概率的改变并不大,可以近似成简单随机样本。

直方图

频率直方图可以看出数据分布的三个重要特征。

数据的平均值(集中趋势)

集中趋势:一组数据向其中心值靠拢的倾向和程度。

众数(mode):出现次数最多的变量值,不受极端值的影响。一组数据可能没有众数或有几个众数。

中位数(median):排序后处于中间位置上的值,不受极端值的影响。如果样本数量是奇数,中位数就是排序后中间的那个数;如果样本数量是偶数,中位数是排序后中间两个数的平均值。

各变量值与中位数Me

i=1

算术平均值(mean):

数据的变异性(离散趋势)

极差(最大值与最小值之差)

样本方差、标准差

曲线的形式

统计量

设X1,X2,?Xn是来自总体X的一个样本,T=Tx1,x2,?xn

常用的统计量有样本均值与样本方差

K阶原点矩和中心距

偏度和峰度

次序统计量及其分布

设X1,X

x

其中xk代表第k个观测值,是样本第k个次序统计量Xk的取值,称X1,X

次序统计量不同于样本,它既不独立,也不同分布。

下面推导一般

文档评论(0)

KevinLiu4 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档