- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 样本描述与数据准备
样本数据采集到以后,不能立即用于数据分析,因为样本可能存在错误数据、缺失数据或者异常数据,或者采集的数据不符合要求,不具有代表性,这些情况会直接影响到分析结果的准确性和准确性。所以,进行数据分析以前,需要首先了解一下样本数据的基本特征,并对缺失值和异常值等进行适当的处理。
第一节 样本的描述
一、基本数学知识
样本数据采集到以后,常用一些统计量描述原始数据的集中程度和离散状况,对数据的总体特征进行归纳。
(1)描述中心趋势的统计量
算术平均数:样本数据的总和除以数据个数得到算术平均数,算术平均数是描述样本数据中心趋势最常用的统计量,因为具有计算简便、稳定的优点。
中位数:将样本数据(假设有个数)按照升序或者降序排列,如果为奇数,则数列中间的数为中位数;如果为偶数,则中位数为居中两数的均值。中位数不如算术平均数稳定,即在同一总体中取相同大小的不同样本时,中位数的变化比算术平均数大。但是中位数不受极值的影响,因而在经济统计中应用较多。
众数:样本数据中出现频数最大的那个数称为众数。众数容易理解,但是不容易确定,与中位数一样,不受极值的影响。
截尾平均数:将样本数据进行排序后,按照一定的比率去掉两端的某些数,对剩下的数据求平均值,得到截尾平均数。常用的截尾平均数有5%截尾平均数,即两端去掉5%的数据以后剩余的数求平均数。截尾平均数与算术平均数相比,较少受极值的影响。
几何平均数:个非负数的几何平均数可以表示为:
几何平均数应用于任何两个相邻数之比为常数或者接近常数的数据资料。
调和平均数:个数的调和平均数可以表示为:
其它中心趋向的度量还有某种四分数、十分数和百分数的平均值。其中,分位数是随机变量的一种数字特征,假设连续型随机变量的密度函数是,给定常数 ,若满足:
则称为的分位数。
(2)描述离散趋势的统计量
仅仅利用描述中心趋势的统计量,不能够反映整个数据集合的分布状况,具有不同分布的数据可能具有相同的算术平均数、中位数或者众数等。因此,还需要统计量来反映数据与描述中心趋向统计量之间的离散状况。这样的统计量主要包括以下几种:
极差:极差是样本数据中最大值与最小值的差值,极值舍弃了最大值与最小值之间的数据信息,仅仅依靠端点值来确定,因而稳定性差。
平均差:样本数据中各数据与均值之间差值的平均数称为平均差。平均差应该为0,用它可以检验平均值的准确性。
平均绝对差:样本数据中各数据与均值之间的差值的绝对值的均值称为平均绝对差。
标准差:方差的平方根称为标准差,标准差是最常用的反映数据离散趋势的统计量。
(3)偏度与峰度
偏度:偏度是反映数据分布不对称的一个数字特征,其公式:
式中,,为变量的阶中心矩。当数据为正态分布时偏度为0。
峰度:峰度是以正态分布为标准描述该分布密度的形状为陡峭还是平坦的一个数字特征,计算公式为:
当数据呈现正态分布时,峰度为0。
二、SPSS实现
用鼠标指向Analyze菜单条中的Descriptive Statistics选项,打开响应的子菜单,该子菜单中提供了多个过程来实现样本数据的描述。下面分别进行介绍。
(1)频数分析过程
该过程就是通过数据频数分析来达到整理数据的目的,利用该过程,得到一系列描述数据分布状况的统计量。
对话框介绍
在Descriptive Statistics子菜单中单击Frequencies选项,打开Frequencies对话框,如下图所示;
变量名列表框:对话框左侧的变量名列出了当前数据文件中所有的变量的变量名。
Variable(s):在变量名列表框中单击文件名之后,单击对话框中间的箭头按钮,将变量名移到该列表框中。选定变量名后,将对选定变量的数据进行频数分析。
Display frequency tables:选定此项,将在查看器中显示频数分析表,否则只显示直方图,不显示频数表。
Statistics按钮:单击该按钮,打开Frequencies:Statistics对话框,如下图所示,该对话框中各个选项的意义如下:
1.Percentile Values方框:选择方框内的选项,计算并显示分位数。
Quartiles核选框 计算并显示四方位数。
Cut Points核选框 在后面的窗口中输入数值,假设为(为2到100之间的整数字),则计算并显示分位数。
Percentile(s)核选框 在后面的窗口中输入数值,可以有选择的显示百分位数。
您可能关注的文档
最近下载
- 2022年技术能手选拔赛试题调幅广播(含答案).docx VIP
- SL 489-2010_水利建设项目后评价报告编制规程.pdf VIP
- 2025甘孜州委统一战线工作部选调事业单位工作人员8人笔试备考试题及答案解析.docx VIP
- GB51251-2017 建筑防烟排烟系统技术标准 (正式版).docx VIP
- 2025广西公需科目考试答案(3套涵盖95-试题)一区两地一园一通道建设人工智能时代的机遇与挑战.docx VIP
- 机械电子工程系本科毕业设计指南.docx VIP
- 信息化系统安全运维服务方案设计.docx VIP
- 妇产科会阴按摩术.pptx VIP
- 中信大厦(中国尊)全生命周期管理路径探索及实践.pdf VIP
- 年春季高考数学真题.doc VIP
文档评论(0)