第九章属分类数据分析.pptVIP

  • 2
  • 0
  • 约5.54千字
  • 约 43页
  • 2022-05-01 发布于广东
  • 举报
5) 为了在列联表中显示各种频数、百分数,单击“Tables(列联表)”按钮,打开“Table Analysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-11所示。 两次单击“OK”按钮,得到分析结果。 2. 结果分析 列联表(图9-12)中列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行)。 进一步检验的结果要看(图左)统计量部分的Chi Square一行,其值为19.8225,p值为0.0005,所以应拒绝原假设,作出结论:地区与原料等级是有关联的。这里的关联度系数取值分别是0.1991、0.1953、0.1408。 图右给出Fisher精确检验结果,其双侧检验p值远小于0.05,也应拒绝原假设。 第九章属分类数据分析 9.1 属性数据及其分析 9.1.1 属性数据分析与列联表 9.1.2 属性变量关联性分析 9.1.3 属性变量关联度计算 9.1.4 有序变量关联性分析 9.1.1 属性数据分析与列联表 1. 属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。 2. 列联表 列联表(contingency table)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。 表9-1 关于改革方案的调查结果(单位:人) 表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为2?4表。 一分公司 二分公司 三分公司 四分公司 合计 赞成该方案 68 75 57 79 279 反对该方案 32 45 33 31 141 合计 100 120 90 110 420 交叉表的基本形式如图9-1所示。 这是一张具有r行和c列的一般列联表,称它为r?c表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。 列 行 第1列 第2列 … 第c列 行边缘频数 第1行 n11 n12 … n1c 第2行 n21 n22 … n2c … … … … … … 第r行 nr1 nr2 … nrc 列边缘频数 … 9.1.2 属性变量关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为: H0:变量之间独立; H1:变量之间不独立 1. ?2检验 在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即 (j = 1,2,…,c) 或 (j = 1,2,…,c) 其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。 为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是?2检验。?2统计量为: 在H0成立的条件下,当观测数据较大时,?2统计量的分布近似服从自由度为(r - 1)(c – 1)的?2分布。 由于?2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的?2值往往偏大,相应的p值偏小,从而人为地增加了犯

文档评论(0)

1亿VIP精品文档

相关文档