《数据科学统计基础(第二版)》 课件全套 吕晓玲 第1--5章 数据及其描述:统计量----再抽样方法.pptx

《数据科学统计基础(第二版)》 课件全套 吕晓玲 第1--5章 数据及其描述:统计量----再抽样方法.pptx

  1. 1、本文档共819页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数理统计中国人民大学统计学院

选用教材吕晓玲、黄丹阳(2024),《数据科学统计基础》(第2版),中国人民大学出版社

第1章数据及其描述:统计量1.1数据和变量1.2总体、样本和统计量1.3从样本认识总体的图表方法1.4抽样分布1.5次序统计量1.6充分统计量1.7常用的概率分布族1.8与本章相关的R语言操作

第1章数据及其描述:统计量统计学是探讨随机现象统计规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,从而对研究对象的某些特征做出判断。

第1章数据及其描述:统计量数据和变量PART1.1

1.1数据和变量1.1.1数据的例子数据的记录手段具有明显的时代特征。数据可以分为结构化数据和非结构化数据。数据按照收集方法可以分为观测数据和试验数据。凡是可以电子化记录的其实都是数据。这里所说的记录不是靠自然人的大脑,而是通过必要的信息化技术和电子化手段。

1.1数据和变量1.1.2变量的类型这些特征在不同研究个体的取值是不同的,因此称为随机变量(或简称变量,一维情况)或随机向量(二维及以上)。变量有很多类型,主要分为两种。往往我们要研究的并不是一个问题的所有方面,而是某些感兴趣的维度(或称为特征),比如某地区居民的收入水平,某疾病的发病率与饮食习惯的关系等。一种是定量变量或数量变量,比如五年级男生身高,某款汽车的速度,某种疾病的患病人数;另外一种变量类型称为分类变量或定性变量、示性变量、属性变量、因子型变量,比如性别、职业、地区等。分类变量有些是有序的,比如信用等级、工资收入等级等,称为定序变量。

1.1数据和变量1.1.2变量的类型连续型变量(区间变量、实数型变量):取值范围是某区间中的任何值离散型变量:取整数值或可数数量集合值的变量。年龄一般来说,应该是连续型的;但往往取整数,成了离散型;而在问卷调查中,往往在年龄的若干选项(比如”幼年“、”青年“、”中年“,”老年”)中选择一个,这就是分类变量或者定序变量了。变量类型并不是绝对的

1.1数据和变量1.1.2变量的类型变量的种类实际上是由人们对变量的约束而定的比如颜色(红、黄、蓝、紫等),最原始的变量是定性变量。定性变量包含最少的约束。定序变量是把定性变量加了大小的约束,比如按照波长的大小排列顺序,则有红黄蓝紫。如果按照频率排列,这个顺序则相反。定量变量则不仅仅排序,而且有数目,每一个颜色都由特定的频率或波长定义,这就称为连续变量或者区间变量。

1.1数据和变量1.1.2变量的类型表1.1.1颜色的频率和波长

1.1数据和变量1.1.2变量的类型对数据的人为约束越多,数据在模型中所起的作用越小。或者说“自由度”越小。比如,把年龄排序成(或者用岁数这样的整数):老中青幼,看上去似乎更合理。实际上,这意味着老年和幼年是两个极端的现象。但在体力上和心理上,老年和幼年却呈现了一些类似,这种信息容易被排序(或数量化)所埋没但也可通过模型选择学习出这种非线性的影响。如果按照体力或智力排序,则会有不同的结果。

第1章数据及其描述:统计量总体、样本和统计量PART1.2

1.2总体、样本和统计量1.2.1总体和分布在一个统计问题中,我们把研究对象的全体称为总体,其中每个成员称为个体。在实际问题中,总体是客观存在的人群或物类。这是对总体这个概念在研究问题的对象这个层面的理解。总体可以用一个概率分布来描述,其数量指标X就是服从这个分布的随机变量。因此,常常用随机变量的符号或分布的符号表示总体。因此,常常用随机变量的符号或分布的符号表示总体。以后我们说“从某总体中抽样”和“从某分布中抽样”是同一个意思。

1.2总体、样本和统计量1.2.1总体和分布如果我们要研究的问题不只是一个维度,而是二维或更高维度。比如研究儿童血色素(X1)同其性别(X2)、年龄(X3)之间的关系。那么总体仍然是一堆数,只不过每个元素不是一个数字,而是一个向量。这个总体仍然可以用一个概率分布来描述,就是(X1,X2,X3)的联合分布。更进一步的,数据的维度可能会很高,几千、上万,甚至更高,我们可以假设这些变量之间有某种相互关系,从而假定一些条件分布的形式,使用统计模型或算法进行数据分析,这是后续专业课的具体内容,本书只有少量涉及。但本书所介绍的思想和原则是后续所有专业课的基础。

1.2总体、样本和统计量例1.2.1为了解某地区居民在某网站购物情况,回答以下三个问题:网上购物居民占所有居民的比例:二项分布过去一年内网购居民的购物次数:离散分布过去一年内网购居民的购物金额:连续分布123

1.2总体、样本和统计量例1.2.2彩色浓度是彩

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档