- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数理统计的基本概念
1.1引论
数理统计的基本任务
统计学以概率论为基础。
概率论和数理统计学干的事情刚好相反,前者研究怎么在已知分布的情况下求各种参数,后者研究怎么在不知道分布的情况下照样把那些参数求出来。
统计学和概率论的区别就是是否已知分布,实际中的问题大部分都没有分布,只有样本,有时候能事前知道分布,但不知道分布中的参数。
理论上,只要对随机现象进行足够多次观测或试验,规律性一定能清楚地呈现出来,但实际允许的观测永远是有限的。因此,就要有效地利用有限的由观测或试验所得的资料,去掉由于资料不足所引起的随机干扰,对所研究的问题作出尽可能精确和可靠的推断。推断必然有不确定性,但我们可以用概率表示这种不确定性。这种以一定概率表明其可靠程度的推断称为统计推断(StatisticalInference)。
数理统计就是研究如何以有效的方法收集、整理和分析受到随机性影响的数据,对所考察的问题作出推断或者预测。
统计学的任务包括:收集数据、整理数据、分析数据,本课只讲分析数据。
数理统计的基本内容
数理统计分为收集数据和统计推断两部分。
数据收集要求经济有效,方法有全面观测、抽样观测及安排特定的试验等。
统计推断只考虑在已给定数据所服从的概率模型条件下,如何通过数据检验选定的模型与实际是否符合、确定模型中某些未知的成分,而不考虑怎样获得这些数据。
推断的基本问题分为参数估计(ParameterEstimation)和假设检验(HypothesisTesting)两大类,主要方法分为参数方法(ParametricMethod)和非参数方法(NonparametricMethod)。
数理统计的基本应用
数理统计是一个应用性很强的数学学科,数理统计方法只是一个辅助性工具,要成功应用还需依赖于一定的专业知识。
在基础和应用研究中,对大量数据的处理,数理统计提供了必需的方法,如最常用的误差分析及建立经验公式的方法。
1.2数理统计的基本概念
总体和样本
在数理统计中,把一个统计问题所研究的全部元素组成的集合称为总体(Population),总体中的每个元素称为个体(Individuality)。
为了研究总体的分布规律,我们不能对整个总体进行观测,只能对总体中随机抽出的一些个体进行观测,譬如抽取了n个个体,得到这些个体的指标值X1,X2,?,Xn
抽样观测得到X1,X2,?,X
这里需要注意两点:
总体没有随机性。
统计中国人口数量,中国的人口总数就是总体,它是一个确定的数字,在确定的时刻并不会变化,没有随机属性,不是随机变量。但是统计人员无法对每个中国公民挨个计数,只能用某种方法抽取总人口的一部分计数,抽出的那一部分人就是样本。样本既可以这么抽,又可以那么抽,使用不同的样本估计出的总人口数是不一样的,所以样本具有随机性,但是总体即中国当下时刻的总人口数量是一个确定的数,它是不变的,尽管不得而知,但没有随机性。
样本具有二重性,既有随机变量的属性,又有数的属性。
在某次具体的观测或试验中,样本是一批测量值,是一组数,所以样本具有数的属性。
当脱离具体的观测或试验时,并不知道样本的具体取值是多少,此时可以将样本看成随机变量,所以样本又具有随机变量的属性。
样本既可以被看成数值,又可以被看作随机变量的属性叫作样本的二重性。
统计学研究的样本是简单随机样本,即具有代表性和独立性的样本。
代表性:对每个个体的观测应在完全相同的条件下进行,即X1,X2,?,X
独立性:每个个体的观测应是独立进行的,即X1,
设总体具有分布函数Fx,样本X
F
实际的抽样是无放回的抽样,理论上无放回会导致每次抽到的概率不相等,但是当抽样的数量不大,而样品总量很大时,少一个样品对概率的改变并不大,可以近似成简单随机样本。
直方图
频率直方图可以看出数据分布的三个重要特征。
数据的平均值(集中趋势)
集中趋势:一组数据向其中心值靠拢的倾向和程度。
众数(mode):出现次数最多的变量值,不受极端值的影响。一组数据可能没有众数或有几个众数。
中位数(median):排序后处于中间位置上的值,不受极端值的影响。如果样本数量是奇数,中位数就是排序后中间的那个数;如果样本数量是偶数,中位数是排序后中间两个数的平均值。
各变量值与中位数Me
i=1
算术平均值(mean):
数据的变异性(离散趋势)
极差(最大值与最小值之差)
样本方差、标准差
曲线的形式
统计量
设X1,X2,?Xn是来自总体X的一个样本,T=Tx1,x2,?xn
常用的统计量有样本均值与样本方差
K阶原点矩和中心距
偏度和峰度
次序统计量及其分布
设X1,X
x
其中xk代表第k个观测值,是样本第k个次序统计量Xk的取值,称X1,X
次序统计量不同于样本,它既不独立,也不同分布。
下面推导一般
文档评论(0)