第五节·统计与统计量 - jichun si.pdfVIP

下载本文档

9
0
约 23页
2017-09-02 发布于天津
举报
版权申诉

第五节·统计与统计量 - jichun si.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五节·统计与统计量 - jichun si

第五节·统计与统计量司继春上海对外经贸⼤学统计与信息学院在这⼀节中我们将讨论统计学的⼀些基本概念，这些概念是我们后⾯学习统计学理论的基础。我们⾸先介绍统计学中总体、样本和模型的概念，进⽽介绍统计量的概念及性质。 1 统计的基本概念 1.1 统计学中的数据统计学是⼀门关于数据的学科，所有的统计⽅法都是围绕着数据展开的，因⽽我们从数据的分类⼊⼿，介绍统计学的⼀些基本概念。现实⽣活中碰到的数据是多种多样的，针对同⼀个个体，我们可以通过很多特征对其进⾏刻画。⽐如，对于⼀个⼈来说，其性别、年龄、⾝⾼等都是其个⼈的特征；⽽对于⼀家企业来说，其所有权性质、企业年龄、注册资本等也是其特征。我们通常把这些描述个体的特征称为变量（Variable ）。然⽽注意到，这些变量的性质并不⼀样。⽐如我们可以⽐较两个⼈的⾝⾼、年龄的⼤⼩，然⽽我们却不能⽐较性别的⼤⼩。因⽽尽管我们经常把数据全都编码为数值型（⽐如男 =1, ⼥ =0 等），然⽽这些数值的⼤⼩并不是都有意义。根据数据度量的层次，⼀般可以将数据分为以下三类： 1. 分类变量（Categorical variable）：指数据仅仅⽤于区分类别，⽽数据没有数值上的意义，⽐如性别、企业注册类型等。 2. 顺序变量（Ordinal variable）：指数据的值不仅仅⽤于区分类别，还可以⽤于排序。⽐如奖学⾦等级（⼀⼆三等），空⽓污染等级（重度污染，轻度污染，良好）等。 3. 数值变量（Numerical variable ）：指不仅仅数据的排序有意义，⽽且数据值的差是有意义的。通常又可以将数值型数据分为离散变量和连续变量，前者如次数、⼈数、年龄等，后者如温度、长度、⾦额等等。当然，数据的分类⽅法并不唯⼀。⽐如有的分类⽅法将数据分为定类数据、定序数据、定距数据和定⽐数据。⽽还有⼀些数据是复合类型，⽐如对于截尾数 1 1 统计的基本概念 2 据（Censored data），就结合了顺序变量和数值变量的特点。针对不同类型的数据，使⽤的统计⽅法经常有很⼤的差别。⽽根据时间和个体进⾏划分，我们经常使⽤的数据⼀般有两种最基本的数据类型：横截⾯数据（Cross-sectional data）与时间序列数据（Time series data ）。其中，横截⾯数据，或者简称截⾯数据，指同⼀时间点或者时间段，对不同主体的某些变量进⾏观测。⽐如在实验中，对于某⼀次实验，不同的实验对象的不同观察指标组成的数据即横截⾯数据。再⽐如，在调查数据中，很多家庭的多个变量组成的数据也是横截⾯数据。横截⾯数据只有个体上的差异⽽没有时间上的差别。⼀般我们⽤记为数据中个体的个数。⽽时间序列数据是对于⼀个或者多个变量在不同时间上的观测。⽐如 2000 年到现在我国每个季度的 GDP 即时间序列数据。再⽐如2000 年到现在我国每个季度的货币供给 M0、M1、M2 也是时间序列数据。⼀般我们⽤记为数据中时间的长度。时间序列数据只有时间上的差异⽽不存在个体上的差异。除这两种外，还有这两种类型数据的合并数据，如常⽤的⾯板数据（Panel data ）或者纵向数据（Longitudinal data ）、重复⾯板数据（Repeated cross- sectional data ）等等。其中⾯板数据指的是同时观测多个个体，同时对于每个个体，在不同时间段对某些变量进⾏观测。⽐如，单独看上海市从 2000 年到现在每年的 GDP 是时间序列数据，然⽽如果我们可以观察到全国每个省从 2000 年到现在每年的 GDP ，那么就是⾯板数据。⾯板数据既有时间上的信息又有不同个体的信息，我们⼀般把 ≫ 的⾯板数据称为长⾯板数据。 1.2 统计模型在获得数据之后，我们需要对这些数据建⽴概率模型。⼀般⽽⾔，⼀个典型的统计学问题可以如下描述：进⾏⼀次或者⼀系列的随机试验，并且从这些随