在正态分布和一般的偏态分布中
rzhao@ session 3 聚类分析 应用多元统计分析及SPSS应用 Session 3 统计数据的收集、整理与描述 统计数据的来源 应该注意的是,SPSS 在未特别指定的情形下,直方图或频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在一定数目的要求不符。 在调用[Frequencies]统计过程命令之前,可先对原始数据进行预处: 已知最小值为84,最大值为128,全距为10,故可要求分成5 组,起点为80,组距为10。 选择[Transform]=[Recode]=[Into Different Variable...],在弹出的[Recode Into Different Variable]对话框中选定X,单击按钮使之进入[Numeric Variable→Output Variable]列表框,在[OutputVariable]栏的[Name]文本框中输入x1,单击[Change]按钮表示新生成的变量名为x1。 单击[Old and New Values]按钮弹出[Recode Into Different Variable:Old and New Values]子对话框,在[Old Value]选项中单击[Range]项,输入第一个分组的数值范围:80~89,在[New value]栏内输入新值:80,单击[Add]按钮. 依此将各组的范围及对应的新值逐一输入,最后单击[Continue]按钮返回,再单击[OK]按钮即完成。系统在原数据库中生成一新变量为x1,这时再调用[Frequencies]统计过程将输出等距分组且组数为5 的频数分布表。 二、分布的形状 用于描述数据分布形状即分布关于其中心的波动程度的代表值有:极差、内距、方差和标准等,它们描述了分布的离散程度和差异程度。 (一)极差(range) 极差也称为全距,是最大值与最小值之间的距离,它是数据离散或差异程度的最简单测度值,即 例如,在前面的数据中,极差为128-84=44(件)。显然,数据的离散程度大,极差就越大。极差虽然很容易计算,但它只告诉我们数据分布范围,至于分布的中间部分是如何变化的则不得而知。而且它受极端值的影响可能是很大的。 (二)内距(Inter-Quartile Range, IQR) 内距又称为四分位差,是两个四分位数之差,IQR=高四分位数—低四分位数。 若内距比较小,则说明数据比较集中在中位数附近;反之则比较分散。内距常和中位数一起用来描述一个定距特别是定序测量数据的分布。 (三)方差(variance)和标准差(standard deviation) 方差是离差平方的平均数,即 或 三、偏度与峰度 (一)偏度(skewness) 所谓偏度是指反映频数分布偏态方向和程度的测度。 在频数分布中,最大集中点以上(频数曲线图横轴上众数的右边)的频数占总频数的一半多,称为右偏或正偏。 最大集中点以下(频数曲线图横轴上众数的左边)的频数占总频数的一半多,称为左偏或负偏。 偏度的计算公式为: * 多元统计分析及SPSS应用 天津大学 rzhao@ /~zhao Ruiqing Zhao 赵瑞清 Tianjin University Session Topics 统计数据的来源 统计数据的收集 统计数据的描述 统计数据的整理 一、统计数据的直接来源 来源于管理和研究需要而专门组织的调查 来源于科学试验的数据 二、统计数据的间接来源 来源于公开出版物的数据 来源于内部调查的数据 统计数据的收集 数据的搜集方法 询问调查 访问调查 观察实验 电话调查 邮寄调查 观 察 电脑辅助 座 谈 会 个别深访 实 验 访问调查 1. 调查者与被调查者通过面对面地交谈而获得资料 2. 有标准式访问和非标准式访问 标准式访问通常按事先设计好的问卷进行 非标准式访问事先一般不制作问卷 邮寄调查 也称邮寄问卷调查 是一种标准化调查 调查者与被调查者没有直接的语言交流,信息的
您可能关注的文档
最近下载
- 《消毒供应质量控制指标(2024年版)》.docx VIP
- 股市主力操盘盘 口摩斯密码(原创内容,侵权必究).pptx
- 2012下半年深圳市机关公开招考公务员职位表.doc VIP
- 国际期刊科技论文写作与发表.PDF VIP
- 科技英语写作讲义.pdf VIP
- 《苹果手机删除的照片如何恢复?苹果最近删除照片恢复.docx VIP
- 水平井完井工艺技术要求,SY_T6-2016.pdf VIP
- SY/T 6270-2017 石油天然气钻采设备固井、压裂管汇的使用与维护.pdf VIP
- 部编版一年级语文下册第六单元测试卷.docx VIP
- 德州职业技术学院单招职业技能测试参考试题库(含答案).docx VIP
原创力文档

文档评论(0)