- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
定性数据统计分析 Categorical Data Analysis 教学内容 第一章 定性数据 第二章 分类数据的检验 第三章 四格表 第四章 二维列联表 第五章 高维列联表 第六章 逻辑斯蒂回归模型 第七章 对数线性模型 第八章 列联表的对应分析 第一章 定性数据 什么是定性数据? 数据的类型 ——根据数据的取值来分: 1.计量数据(Continuous Data) : 身高、体重等; 取值为任意实数 2.计数数据(Counts) : 职工人数、成交股票数等; 取值为非负整数 3.名义数据(Nominal Data) : 性别、婚姻状况等; 取值为属性编码 4.有序数据(Ordinal Data) : 文化程度、满意度等; 取值为可排序的属性编码 第一章 定性数据 定性数据的描述性统计 方法有表格法、图示法、数值法 1、表格法 【例】向50个被访者调查“你最喜欢喝的饮料”,得到表1.1。 以上数据经按类别整理后,可得到频数分布表,见表1.2。 制作有序数据的频数分布表时,还可以统计累积频数和累积频率,见表1.3。 第一章 定性数据 如果我们想考察这些饮料受欢迎程度与性别的关系,可以制作饮料与性别的交叉分组表,见表1.4。 显然,这种表有利于我们进一步发现受欢迎程度与性别之间的关系。 类似地有三种、或更多种方式分组的交叉表,即列联表(contingency table)。 第一章 定性数据 2、图示法 包括条形图、圆形图(表1.4)、排列图等 其中的排列图,又叫帕累托图,是按照发生频率大小顺序绘制的条形图; 表示有多少结果是由已确认类型或范畴的原因所造成; 将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表; 可以用来分析质量问题,确定产生质量问题的主要因素。 帕累托图(Pareto Chart) 通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率; 横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列; 通常将累积频率0~80%之间的因素认为是影响质量的主要因素。(见附录1) 第一章 定性数据 3、数值法 即用代表性的数值描述定性数据的统计分布特征。 代表性的数值有两类: 描述定性数据的中心位置 描述定性数据的离散程度 中心位置:众数、中位数、百分位数 离散程度:异众比率、G-S指数、熵 众数 数据中出现频数最高的数据值,记为Mo 如上例中,“可口可乐”是众数; 适用于定性名义数据中心位置的量度; 众数的性质略。 中位数 将数据按一定顺序排列后位于中间的数值,记为Me; 例:游客对服务态度的评价( % ) 适用于定性有序数据中心位置的量度。 百分位数 百分位数是对数据位置的量度,但不一定是中心位置; 一般地,第p百分位数是指,至少有p%的数据项小于等于这个值,且至少有(100-p) %的数据项大于等于这个值; 第25百分位数称为下四分位数,记为QL,第50百分位数就是中位数,第75百分位数称为上四分位数,记为QU ; 异众比率 用于定性名义数据离散程度的度量,记为V: 离异比率越小,说明数据越集中; 此外,还可以利用随机变量来刻画定性数据的离散程度; 比如,随机变量ξ ,可以取 等不同的值,相应的概率为 即: Gini-Simpson指数 基尼-辛卜生指数简称G-S指数 随机变量ξ的G-S指数记为G-S(ξ) G-S指数越小,说明随机变量ξ的分布越集中; G-S指数越大,则分布越分散。 当k=2, 时,G-S指数达到最大值 ,即均匀分布时指数达到最大(见附录2)。 熵 随机变量ξ的熵(entropy)记为H(ξ): 在 的条件下,衡量给定分布与均匀分布接近的程度。 越接近于均匀分布,越处于平衡状态,即离散程度越大,熵的取值越大,最大值为 ;反之也反。 (见附录2) 定性数据离散程度的测度 【例】最喜欢的饮料的频数分布表 1、用离异比率测度: 若将数据稍作调整为: 则 饮料 频数 频率 可口可乐 苹果汁 橘子汁 百事可乐 杏仁露 25 6 5 5 9 50 12 10 10 18 合计 50 100 定性数据离散程度的测度 2、用G-S指数测度: 调整前, 调整后, 3、用熵测度: 调整前, 调整后, 定性数据离散程度的测度 如果前例中每种饮料的频数相同,那么各自的G-S指数和熵分别为多少呢? 当均匀分布时,定性数据的离散程度达到最大 G-S指数的最大值为: 熵的最大值为: 本章小结 定性数据的类
您可能关注的文档
- 第29课送你一束转基因花课件苏教版八上.ppt
- 第30章 失业及通货膨胀的短期权衡.ppt
- 第31课综合探究批判继承及开拓创新.ppt
- 第-二-节-万有引力定律应用[下学期]--粤教沪科版.ppt
- 第3节_需求分析 _2.ppt
- 第32章RNA的生物合成及加工.ppt
- 第3节动物行为研究.ppt
- 第1718讲长期筹资资本结构决策.ppt
- 福临门餐厅与历史.ppt
- 科目二场地考试倒库技巧图解和图形.ppt
- 2025中国民航科学技术研究院招聘合同制6人(第二期)笔试备考试题及答案解析.docx
- 2025中国科学院生物物理研究所章新政研究组特别研究助理(博士后)招聘(北京)笔试备考试题及答案解析.docx
- 2025中国社会科学院生态文明研究所非事业编制管理岗位招聘1人备考试题及答案解析.docx
- 2025浙江宁波市通信管理局下属事业单位招聘1人笔试备考试题及答案解析.docx
- 2025中国工商银行甘肃省分行社会招聘16人笔试备考试题及答案解析.docx
- 江西水利职业学院2025年公开招聘工作人员补充说明笔试备考题库及答案解析.docx
- 2025中国联通内蒙古分公司社会招聘1人备考试题及答案解析.docx
- 2025中国科学院地球环境研究所粉尘与环境研究室招聘1人笔试备考试题及答案解析.docx
- 泸州市教育和体育局下属事业单位泸州市职业技术学校公开考核招聘教师笔试备考题库及答案解析.docx
- 2025中国旅游研究院(文化和旅游部数据中心)招聘16人备考试题及答案解析.docx
最近下载
- 医院内部控制管理手册.pdf VIP
- 2025江苏徐州云龙区翠屏山街道残疾人之家管理服务人员岗位招聘1人备考试题及答案解析.docx VIP
- 协会标准-TCECS 1113-2022给水排水工程微型顶管技术规程.pdf VIP
- 2025江苏徐州云龙区翠屏山街道残疾人之家管理服务人员岗位招聘1人笔试模拟试题及答案解析.docx VIP
- 施工HSE作业指导书.doc VIP
- 嘉兴市英语六年级小升初期末复习试卷.doc VIP
- 标准图集-08D800-7-民用电气设计与施工-室外布线.pdf VIP
- 中等职业学校三年发展规划2024-2026学年.docx VIP
- 场地租赁协议场地租赁合同.doc VIP
- 2025江苏徐州云龙区翠屏山街道残疾人之家管理服务人员岗位招聘1人笔试备考试题及答案解析.docx VIP
文档评论(0)