- 1
- 0
- 约5.93千字
- 约 45页
- 2017-05-30 发布于北京
- 举报
在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。 如何用图来表示数据? 定量变量的图表示:直方图 对于一个定量变量,比如某个地区测量了163个高三男生的身高。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。 定量变量的图表示:盒型图 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 右图是根据地区1高三男生的身高数据所绘的盒形图; 定量变量的图表示:茎叶图 在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据 以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。 定量变量的图表示:散点图 数据会有两个变量,如美国男士和女士初婚年限数据。 该数据描述了自1900年到1998年男女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。 定性变量的图表示:饼图 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 定性变量的图表示:条形图 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。 如何用少量数字来概括数据? 大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分比等来概括大量数字。 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。 如何用少量数字来概括数据? 可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字是从样本数据得来的,因而也是样本的函数, 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统计量也是随机变量) 如何用少量数字来概括数据? 概括统计量经常对应于总体的无法观测到的某些参数。 这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。 如何用少量数字来概括数据? 注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。 数据的“位置” 数据有位置吗? 数据的“位置” “位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。 和这种“位置”有关的统计量就称为位置统计量(location statistic)。 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k%分位数)。 数据的“位置” 最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(sample mean),以区别于总体均值。 如果记样本中的观测值为x1,…,xn,则样本均值定义为 数据的“位置” (样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。 由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。 数据的“位置” 上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。 数据的“位置” 一般地还称上四分位数为75百分位数(75 pecentile,有75%的观测值小于它),下四分位数为25百分位数(有25%的观测值小于它)。 一般地,k百分位数(k-pecentile)意味着有k%的观测值小于它。 如果令a=k%,则k百分位数也称为a分位数(a-quantile)。 样本中出现最多的数目,称为众数(mode) 数据的“尺度” 这两个数据“胖瘦”一样吗? 数据的“尺度” 数据中数目的分散程度由尺度统计量(scale statistic)来描述。 尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。 数据的“尺度” 从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右边的数据散布范围要小得多。 数据的“尺度” 极差(rang
您可能关注的文档
最近下载
- 《岭外代答》的人类学解读实验——兼论宋代华夷之辨的弱化.pdf VIP
- QSH 0081-2007 探井(直井)钻井工程设计.docx VIP
- 《岭表录异》青少年读物.pdf VIP
- 资产处置委托协议书模板5篇.docx VIP
- mipi_CSI-2_specification_v1.3._高清版电子文档.pdf VIP
- QSH 0042-2007 钻井液用磺甲基酚醛树脂技术要求.docx VIP
- 《QSH0047-2007-钻井液用抗高温抗盐降滤失剂通用技术要求》.pdf VIP
- 股市主力操盘盘 口摩斯密码(原创内容,侵权必究).pptx
- 指数基金投资指南(银行螺丝钉).pdf VIP
- 《QSH0082-2007-水平井钻井工程设计要求》.pdf VIP
原创力文档

文档评论(0)