- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五讲-分类数据统计分析
* * * * * * * * * * 9 * * * * * 3 * * * 9 * * * * * * * * * * * * * 行×列表资料使用条件 要求每个格子中的理论频数T均大于5或1T5的格子数不超过总格子数的1/5; 当有T1或1T5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行×列表资料卡方检验的应用条件。 独立性检验 独立性检验(test of independence) 检验列联表中的行变量与列变量之间是否独立 检验的步骤为 提出假设 H0:行变量与列变量独立 H1:行变量与列变量不独立 计算检验的统计量 进行决策 根据显著性水平?和自由度(r-1)(c-1)查出临界值??2 若?2???2,拒绝H0;若?2??2,接受H0 独立性检验(例题分析) 【例】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。检验各地区与原料之间是否存在依赖关系(? ?0.05) 地区 一级 二级 三级 合计 甲地区 52 64 24 140 乙地区 60 59 52 171 丙地区 50 65 74 189 合计 162 188 150 500 独立性检验 (例题分析) 提出假设 H0:地区与原料等级之间独立 H1:地区与原料等级之间不独立 计算检验的统计量 根据显著性水平?=0.05和自由度(3-1)(3-1)=4查出相应的临界值??2=9.488。由于?2=19.82??2=9.448,拒绝H0 独立性检验(例题分析) H0:地区与原料等级之间独立 H1:地区与原料等级之间不独立 ? = 0.05 df = (3-1)(3-1)= 4 临界值(s): 统计量: 在 ? = 0.05的水平上拒绝H0 地区和原料等级之间存在依赖关系 决策: 结论: ?2 0 19.82 9.488 ? =0.05 似然比卡方统计量 除卡方外,列联检验另外一个可选的统计量,是似然比卡方系数 (likelihood ratio chi-square),在足够大样本的情况下将得出和X2一致的结论。似然比卡方系数对于解构交叉分类表格特别有用,公式如下: 关联的测度 关联的测度 (measures of association)是指一组统计量,它们的大小 (正或负)表示交叉表中两个变量之间的关联的紧密程度和方向。与百分数差不同,关联度测度是在列联表中所有数据的基础上,考虑了所有数据而计算的。 为了便于解释,在定义关联度测度时遵循如下四个惯例: 如果两个变量之间为完全关联,那么测度值等于+1(正相关)或-1(负相关)。 如果两个变量无关,那么测度值等于0。 测度值的符号表明关联的方向。大于0的值 (正数)对应于正关系;小于0的值 (负数)对应于负关系。 两个变量之间的关联越紧密,测度值越大。统计量的绝对值 (不考虑符号)用来衡量关联度的大小。 列联表中相关测量统计量 对于分类变量,通常采用基于卡方统计量的各种统计量来进行关联性度量,常用的有Cramer’s V系数、 ? 相关系数和列联相关系数C; 对于有序变量,关联性度量主要采用gamma统计量、Kendall统计量和spearman统计量。 ? 相关系数(correlation coefficient) 测度2?2列联表中数据相关程度 对于2?2 列联表,? 系数的值在0~1之间 ? 相关系数计算公式为 ? 相关系数(原理分析) 一个简化的 2?2 列联表 因素 Y 因素 X 合计 x1 x2 y1 a b a + b y2 c d c + d 合计 a + c b + d n ? 相关系数 (原理分析) 列联表中每个单元格的期望频数分别为 将各期望频数代入 ?? 的计算公式得 ? 相关系数 (原理分析) 将??代入? 相关系数的计算公式得 ad 等于 bc , ? = 0,表明变量X 与 Y 之间独立 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线上,此时|?| =1,表明变量X 与 Y 之间完全相关 列联表中变量的位置可以互换,?的符号没有实际意义,故取绝对值即可 列联相关系数(coefficient of contingency) 用于测度大于2?2列联表中数据的相关程度 计算公式为 C 的取值范围是 0?C1 C = 0表明列联表中的两个变量独立 C 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大 根据不同行和列的列联表计算的列联系数不便于比较 V 相关系数(V correlation coefficient) 计算公式为 V 的取值范围是 0?V?1 V = 0表明列联表中的两个变量独立 V=1表
文档评论(0)