- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用统计学92014.doc
统计资料
定义:
统计资料(Statistical data)是指可用以推导出某项结论的一些事实或数字
第二章 统计资料的整理
为什么进行统计资料的整理?
分类表中序列表与频数估计表各适合于何种情况?
双变量二元分布表中数据的含义如何?
统计资料整理的目的
调查收集到的原始统计资料常常是大量的。它必须经过加工整理,如分类归并汇总,按时间前后或按数值大小重新排列等,才容易发现数据的规律性,并便于做进一步的统计分析。
2.1 统计表
定性分布:
首先建立一个元素的类别系统,使得各类互相排斥,而且是完备的,使被观测的各元素能既不重复又无遗漏地分到各类中去。
然后记录分到同类中的元素个数,或将同类中各元素的观测值加以归并,这样得到定性分布。
频数分布:
按变量所取的值进行分类,于是资料中每个观测值都分到相应类中去。记录各类中观测值出现的次数,制成频数分布表。
累计频数与频率
累积频数(Cumulative Frequency):由第一组起至第i组止各频数之和称为第i组的累积频数,记为Fi,即:
频率(Percent Frequency):就是频数除以总数n:fi/n,经常以百分数表示。
2.2 统计图
统计图: 统计资料整理成统计表后,可以比较清晰地展示变量的变化规律。为了使这种规律更有直观性,常采用统计图表示。包括:线图 、条形图 、圆饼图等
条形图 (Bar chart
圆饼图 (Pie chart)
散点图(Scatter Diagram)
2.3 双变量的二元分布
双变量的统计资料:对每一元素观测两个特征,记录观测结果,就是双变量的统计资料
双变量常用(X,Y)形式表示,以区别两个单变量X和Y
[例2.1]
在飞行模拟训练时,用计算机测定并打印出飞行动作的错误,从两方面进行测定:
错误发生时的飞行状态,分起飞(T),巡航(C)和着陆(L)三种。
错误发生的原因,分规范理解错误(R),仪表读数错误(M)和其它原因(O)三种。
边际分布:在二元分布表最下行(合计行)和最右列(合计列)分别是X和Y的单变量分布,称为边际分布。
一个双变量的二元分布绝不同于两个单变量的一元分布,它不仅说明两变量各自的分布情况,而且说明两变量之间(飞行状态与错误原因之间)的相互关联情况。而这种关联情况(即是否存在关联以及关联的性态和程度等)正是研究双变量的二元分布的主要任务。
2.3 双变量的二元分布
对于三变量(X,Y,Z)的统计资料,整理成分布表的形式是困难的,常用的方法是对于X的每一特定值 xi,研究(Y, Z)的二元分布。更多变量的情形也类似。
第三章 统计资料的综合
表示统计资料的特征数有哪些?
几何平均数与调和平均数各适合于什么情况?
计算样本方差与总体方差公式有何区别?
3.1 表示集中位置的特征数
a. 算术平均数(Arithmetic average)
定义: 一组n个观测值x1,x2 ,…,xn的算术平均数,定义为
b. 几何平均数(Geometric Mean)如果资料已经分组,组数为k,用x1,x2 ,…,xk 表示各组中点,f1,f2…,fk 表示相应的频数,那么
c. 调和平均数:
3.1.2众数(Mode)
算术平均数表示了集中位置特征,它照顾到每一个值,但它不见得是出现次数最多的值(甚至也可能不是观测值中的一个)。所以有必要研究表示集中位置的其它的特征数。
定义:对于有频数分布的变量,它的众数指频数最大的变量的值
3.1.3 中位数(Median)
定义: 一组n个观测值按数值大小排列,处于中央位置的值称为中位数以 表示,
3.1.4 百分位数( Percentile)
一组n个观测值按数值大小排列如x1,x2,x3,x4…
处于p%位置的值称第p百分位数。
第25百分位数又称第一个四分位数(First Quartile),用Q1 表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数
又称第三个四分位数(Third Quartile),用Q3表示。
3.2.1极差(或称全距 Range)R
定义:
其中xmax和xmin分别为数据中的极大值和极小值。
3.2.2 平均差(Mean Absolute Deviation)
3.2.4变异系数(Coefficient of Variation)
定义 变异系数C
是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学
文档评论(0)