定性数据统计第-章技术方案.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
定性数据统计分析 Categorical Data Analysis 授课班级:107061 2009年下学期 教学内容 第一章 定性数据 第二章 分类数据的检验 第三章 四格表 第四章 二维列联表 第五章 高维列联表 第六章 逻辑斯蒂回归模型 第七章 对数线性模型 第八章 列联表的对应分析 第一章 定性数据 什么是定性数据? 数据的类型 ——根据数据的取值来分: 1.计量数据(Continuous Data) : 身高、体重等; 取值为任意实数 2.计数数据(Counts) : 职工人数、成交股票数等; 取值为非负整数 3.名义数据(Nominal Data) : 性别、婚姻状况等; 取值为属性编码 4.有序数据(Ordinal Data) : 文化程度、满意度等; 取值为可排序的属性编码 第一章 定性数据 定性数据的描述性统计 方法有表格法、图示法、数值法 1、表格法 【例】向50个被访者调查“你最喜欢喝的饮料”,得到表1.1。 以上数据经按类别整理后,可得到频数分布表,见表1.2 制作有序数据的频数分布表时,还可以统计累积频数和累积频率。 第一章 定性数据 如果我们想考察这些饮料受欢迎程度与性别的关系,可以制作饮料与性别的交叉分组表,见表1.3 显然,这种表有利于我们进一步发现受欢迎程度与性别之间的关系。 类似地有三种、或更多种方式分组的交叉表,即列联表(contingency table)。 第一章 定性数据 2、图示法 包括条形图、圆形图(表1.4)、排列图等 其中的排列图,又叫帕累托图,是按照发生频率大小顺序绘制的条形图; 表示有多少结果是由已确认类型或范畴的原因所造成; 将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表; 可以用来分析质量问题,确定产生质量问题的主要因素。 帕累托图(Pareto Chart) 通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率; 横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列; 通常将累积频率0~80%之间的因素认为是影响质量的主要因素。(见附录1) 第一章 定性数据 3、数值法 即用代表性的数值描述定性数据的统计分布特征。 代表性的数值有两类: 描述定性数据的中心位置 描述定性数据的离散程度 中心位置:众数、中位数、百分位数 离散程度:异众比率、G-S指数、熵 众数 数据中出现频数最高的数据值,记为Mo 如上例中,“可口可乐”是众数; 适用于定性名义数据中心位置的量度; 众数的性质略。 中位数 将数据按一定顺序排列后位于中间的数值,记为Me; 例:游客对服务态度的评价( % ) 适用于定性有序数据中心位置的量度。 百分位数 百分位数是对数据位置的量度,但不一定是中心位置; 一般地,第p百分位数是指,至少有p%的数据项小于等于这个值,且至少有(100-p) %的数据项大于等于这个值; 第25百分位数称为下四分位数,记为QL,第50百分位数就是中位数,第75百分位数称为上四分位数,记为QU ; 异众比率 用于定性名义数据离散程度的度量,记为V: 离异比率越小,说明数据越集中; 此外,还可以利用随机变量来刻画定性数据的离散程度; 比如,随机变量ξ ,可以取 等不同的值,相应的概率为 即: Gini-Simpson指数 基尼-辛卜生指数简称G-S指数 随机变量ξ的G-S指数记为G-S(ξ) G-S指数越小,说明随机变量ξ的分布越集中; G-S指数越大,则分布越分散。 当k=2, 时,G-S指数达到最大值 ,即均匀分布时指数达到最大(见附录2)。 熵 随机变量ξ的熵(entropy)记为H(ξ): 在 的条件下,衡量给定分布与均匀分布接近的程度。 越接近于均匀分布,越处于平衡状态,即离散程度越大,熵的取值越大,最大值为 ;反之也反。 (见附录2) 定性数据离散程度的测度 【例】最喜欢的饮料的频数分布表 1、用离异比率测度: 若将数据稍作调整为: 则 定性数据离散程度的测度 2、用G-S指数测度: 调整前, 调整后, 3、用熵测度: 调整前, 调整后, 定性数据离散程度的测度 如果前例中每种饮料的频数相同,那么各自的G-S指数和熵分别为多少呢? 当均匀分布时,定性数据的离散程度达到最大 G-S指数的最大值为: 熵的最大值为: 本章小结 定性数据的类型 运用频数分布表整理数据,并计算频率 绘出条形图、饼图、帕累托图 描述定性数据的中心位置和离散程度 第二章 分类数据的检

文档评论(0)

奇缘之旅 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档