数据分析04 5-基本统计分析交通案例.pptx

第4章 SPSS基本统计分析;4.1 频数分析;1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 2、基本任务 (1) 频数分析的第一个基本任务是编制频数分布表; (2) 频数分析的第二个任务是绘制统计图:条形图、饼图、直方图。 ;2) 频数分析的基本操作;交通事故损失.sav; 输出百分位数: 输出四分位数,显示25%、50%、75%的百分位数; 将数据平均分为所设定的相等等份,可输入2—100 的整数,如键入4则输出第25、50、75百分位数 自定义百分位数,可输入0—100 的整数。;3) 频数分析的应用举例;目标一:分析道路等级和天气的基本情况的基本情况 (1)道路等级和天气两个变量都是品质变量,可通过基本频数分析实现。 (2)单击图形Chart按钮指定输出道路等级变量的饼图和职业变量的条形图。 (3)天气变量???取值(分类)数目较多,为使频数分布表更一目了然,可对内容的输出顺序进行调整,单击格式Format按钮,选择Descending counts按频数的降序输出。 ;;道路等级的基本情况-输出结果;天气的基本情况-操作;天气的基本情况-输出结果;目标二:分析交通事故经济损失的分布,并对不同事故级别进行比较。 1、分析思路: (1)由于交通事故经济损失数据为数据型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。 (2)进行数据拆分,并分别计算不同事故级别的经济损失的四分位数,并通过四分位数比较两者分布上的差异。;2、分析过程: (1)数据分组,将经济损失重新分成五组,五组区间分布为,10000元以内,10001-20000元,20001-50000元,50001-10万元,10万元以上。分组后进行频数分析并绘制带正态曲线的直方图。 (2)利用SPSS的频数分析计算所有样本的经济损失的四分位数;然后,按照事故级别类型对数据进行拆分(Split file)并重新计算分位数,分别得到不同事故级别的经济损失的四分位数。;事故经济损失分布-数据分组操作;分组结果;经济损失分布-输出结果;如何对数据结果进行叙述与进入分析?;论据可分为事实论据和理论论据两类。 事实论据是对客观事物的真实的描述和概括。事实论据包括具体事例、概括事实、统计数字、亲身经历等等。 理论论据是指那些来源于实践,并且已被长期实践证明和检验过,断定为正确的观点。它包括经典性的著作和权威性的言论(如名人名言等),以及自然科学的原理、定律、公式等。;不同事故级别经济损失比较-数据拆分;数据拆分结果:数据按事故级别进行了排序,且后面的操作都是按拆分变量的不同组分别进行分析计算。;;4.2 计算基本描述统计量;1) 基本描述统计量;离散趋势;2) 基本描述统计量的操作;基本统计量;3) 应用举例;数据拆分操作;;;问题描述;4.3 交叉分组下的频数分析;1) 目的和基本任务;2、基本任务: 1)根据收集到的样本数据,产生二维或多维交叉列联表; 2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。;2) 交叉列联表的主要内容;;3) 交叉列联表行列变量间关系的分析;交叉列联表的思想--卡方检验;其中,r为列联表的行数,c为列联表的列数; 为观察频数, 为期望频数(Expected Count)。期望频数的计算方法是: 其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。 期望频数的分布反映的是行列变量互不相干下的分布。;(3) 确定显著性水平和临界值;(4) 结论和决策;利用p值进行检验(决策准则);4) 基本操作;该框中的变量作为分布表中的行变量和列变量;(2) 如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。;单元显示Cell Display 对话框;统计量和格式对话框;5) 应用举例;分析:1、该问题列联表的行变量为道路等级,列变量为事故级别,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对不同道路等级的事故级别进行分析。 2、该问题列联表的行变量为天气,列变量为事故级别,在列联表的基础上进行卡

文档评论(0)

1亿VIP精品文档

相关文档