多元统计分析第十章_属性数据的统计分析.doc

多元统计分析第十章_属性数据的统计分析.doc

多元统计分析第十章_属性数据的统计分析.doc

多元统计分析第十章_属性数据的统计分析 第10章 属性数据的统计分析 10.1列联表的独立性分析 10.1.1实例 列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。 例10.1 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。 表10-1 商场调查数据 年龄段(岁) 商场1 商场2 商场3 总和 ≤30 31~50 >51 总和 80 91 41 212 70 86 38 194 45 15 10 70 195 192 89 476 那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。 例10.2 下表给出了一个假设的某大学毕业生的专业M(文科、理工科),性别G及毕业后工作的收入I(高、低)为变量的三维列联表,结果如表10-2所示。 表10-2 大学毕业生调查牙刷 专业(M) 性别(G) 收入(I) 低 高 文科 理工科 男 女 男 女 120 180 80 20 80 120 320 80 则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。 10.1.2 定性变量与列联表 对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用表示定性变量,用表示相应的水平。假设有n个随机实验的结果按照两个变量和分类,取值为,取值为,将变量和的各种情况的组合用一张列联表表示,称列联表,如表8-3所示。其中表示取及取的频数。,其中: 表10-3 变量频数表 B 8#004699A … 总和 总和 … 类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表示方式,则需要一个三维立体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。 10.1.3 二维列联表的独立性检验 二维列联表的两个变量和可视为离散型随机变量,取值分别和,以表示取及取的概率,通常称为格子概率,以分别表示和的边缘概率。则对于二维列联表,变量和的联合及边缘分布列如表10-4所示。 表10-4 变量联合及边缘分布列 B #004699A … 总和 总和 … 1 其中 这时检验变量和是否独立等价于检验假设 如果为真,则在次观测中事件发生的理论频数为 当较大时,理论频数与表10-3中相应的观测频数的差异对,均不应很大,为此,我们用 (10.1) 来描述理论频数与相应的观测频数的总差异量。当为真时,的值应较小,所以,当的值显著偏大时,就拒绝,也就是认为和不独立。 但是在实际中,由于均未知,则我们采用相应的观测概率 分别作为概率的估计()。这样,将概率的估计代入(10.1),则可以得到统计量: (10. 2) 理论上可以证明,当为真时,渐近服从自由度为分布,一般的要求,即每个单元格的频数不少于5。如果值过大,或值很小,则拒绝原假设,认为行变量和列变量存在关联。这种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。 例10.3(续例10.1)根据例题10.1所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的值,利用渐近服从自由度为分布,就可以根据分布表查出是否在水平下拒绝原假设,我们看看如何利用SAS语言来解决这样的问题。 为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS语言中关于列联表检验的语言PROC FREQ来求出值,则如下所示: data client; do i=1 to 3; do j=1 to 3; input f@@; output; end; end; cards; 80 70 45 91 86 15 41 38 10 ; run; proc freq; weight f; tables i*j/chisq; run; 其中用i=1,2,3分别表示顾客的年龄段为≤30,31--50,>51;用j=1,2,3分别表示顾客首先去的商场为商场1,商场2,商场3。则运行程序可以得到下面

文档评论(0)

1亿VIP精品文档

相关文档