二应用统计学笔记.docx

下载文档

0
0
约1.8万字
约 58页
2025-02-04 发布于辽宁
举报
版权申诉
保障服务

二应用统计学笔记.docx

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数理统计的基本概念

1.1引论

数理统计的基本任务

统计学以概率论为基础。

概率论和数理统计学干的事情刚好相反，前者研究怎么在已知分布的情况下求各种参数，后者研究怎么在不知道分布的情况下照样把那些参数求出来。

统计学和概率论的区别就是是否已知分布，实际中的问题大部分都没有分布，只有样本，有时候能事前知道分布，但不知道分布中的参数。

理论上，只要对随机现象进行足够多次观测或试验，规律性一定能清楚地呈现出来，但实际允许的观测永远是有限的。因此，就要有效地利用有限的由观测或试验所得的资料，去掉由于资料不足所引起的随机干扰，对所研究的问题作出尽可能精确和可靠的推断。推断必然有不确定性，但我们可以用概率表示这种不确定性。这种以一定概率表明其可靠程度的推断称为统计推断（StatisticalInference）。

数理统计就是研究如何以有效的方法收集、整理和分析受到随机性影响的数据，对所考察的问题作出推断或者预测。

统计学的任务包括：收集数据、整理数据、分析数据，本课只讲分析数据。

数理统计的基本内容

数理统计分为收集数据和统计推断两部分。

数据收集要求经济有效，方法有全面观测、抽样观测及安排特定的试验等。

统计推断只考虑在已给定数据所服从的概率模型条件下，如何通过数据检验选定的模型与实际是否符合、确定模型中某些未知的成分，而不考虑怎样获得这些数据。

推断的基本问题分为参数估计（ParameterEstimation）和假设检验（HypothesisTesting）两大类，主要方法分为参数方法（ParametricMethod）和非参数方法（NonparametricMethod）。

数理统计的基本应用

数理统计是一个应用性很强的数学学科，数理统计方法只是一个辅助性工具，要成功应用还需依赖于一定的专业知识。

在基础和应用研究中，对大量数据的处理，数理统计提供了必需的方法，如最常用的误差分析及建立经验公式的方法。

1.2数理统计的基本概念

总体和样本

在数理统计中，把一个统计问题所研究的全部元素组成的集合称为总体（Population），总体中的每个元素称为个体（Individuality）。

为了研究总体的分布规律，我们不能对整个总体进行观测，只能对总体中随机抽出的一些个体进行观测，譬如抽取了n个个体，得到这些个体的指标值X1,X2,?,Xn

抽样观测得到X1,X2,?,X

这里需要注意两点：

总体没有随机性。

统计中国人口数量，中国的人口总数就是总体，它是一个确定的数字，在确定的时刻并不会变化，没有随机属性，不是随机变量。但是统计人员无法对每个中国公民挨个计数，只能用某种方法抽取总人口的一部分计数，抽出的那一部分人就是样本。样本既可以这么抽，又可以那么抽，使用不同的样本估计出的总人口数是不一样的，所以样本具有随机性，但是总体即中国当下时刻的总人口数量是一个确定的数，它是不变的，尽管不得而知，但没有随机性。

样本具有二重性，既有随机变量的属性，又有数的属性。

在某次具体的观测或试验中，样本是一批测量值，是一组数，所以样本具有数的属性。

当脱离具体的观测或试验时，并不知道样本的具体取值是多少，此时可以将样本看成随机变量，所以样本又具有随机变量的属性。

样本既可以被看成数值，又可以被看作随机变量的属性叫作样本的二重性。

统计学研究的样本是简单随机样本，即具有代表性和独立性的样本。

代表性：对每个个体的观测应在完全相同的条件下进行，即X1,X2,?,X

独立性：每个个体的观测应是独立进行的，即X1,

设总体具有分布函数Fx，样本X

实际的抽样是无放回的抽样，理论上无放回会导致每次抽到的概率不相等，但是当抽样的数量不大，而样品总量很大时，少一个样品对概率的改变并不大，可以近似成简单随机样本。

直方图

频率直方图可以看出数据分布的三个重要特征。

数据的平均值（集中趋势）

集中趋势：一组数据向其中心值靠拢的倾向和程度。

众数（mode）：出现次数最多的变量值，不受极端值的影响。一组数据可能没有众数或有几个众数。

中位数（median）：排序后处于中间位置上的值，不受极端值的影响。如果样本数量是奇数，中位数就是排序后中间的那个数；如果样本数量是偶数，中位数是排序后中间两个数的平均值。

各变量值与中位数Me

i=1

算术平均值（mean）：

数据的变异性（离散趋势）

极差（最大值与最小值之差）

样本方差、标准差

曲线的形式

统计量

设X1,X2,?Xn是来自总体X的一个样本，T=Tx1,x2,?xn

常用的统计量有样本均值与样本方差

K阶原点矩和中心距

偏度和峰度

次序统计量及其分布

设X1,X

其中xk代表第k个观测值，是样本第k个次序统计量Xk的取值，称X1,X

次序统计量不同于样本，它既不独立，也不同分布。

下面推导一般

您可能关注的文档

文档评论（0）

KevinLiu4 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

二应用统计学笔记.docx