杨鹏伟-STATA统计分析与应用 第六章 列联分析.ppt

杨鹏伟-STATA统计分析与应用 第六章 列联分析.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
杨鹏伟-STATA统计分析与应用 第六章 列联分析

第六章 列联表分析 6.1列联表分析 列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法。设两个变量A和B分别有r和c个类型,则他们可以构成一个的列联表。 独立性检验统计量 在对两变量进行列联表分析时,首先要检验它们的独立性,这就涉及到独立性检验统计量,常用的统计量有皮尔逊卡方统计量(Pearson Chi-Square)和似然比统计量(Likelihood Ratio)。 Fisher精确检验仍采用卡方统计量作为检验统计量,只是在计算统计量的分布时,利用概率论中的超几何分布来计算每一种情况发生的概率,然后才能得到P值。当样本量较大,或者列联表的行数及列数较大时,Fisher检验的计算量会变得很大,以至于无法承受。 列联表中的相关测量统计量 对于名义变量,通常采用基于卡方统计量的各种统计量来进行关联性度量,最常的是Cramer’s V系数 对于有序变量,关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。可以定义以下统计量来描述有序变量之间的有序关联性的大小: 统计量:gamma统计量和 Kendall统计量 6.2 Stata的列联表分析——table和tabulate命令 6.2.1使用table命令生成列联表 table命令可以用于生成一维到多维的列联表,表中不仅可以包含常见的频数,还可以包含任意其他变量的描述性统计量。 table命令的格式如下: table rowvar [colvar [supercolvar]] [if] [in] [weight] [, options] 其中rowvar代表行变量,colvar代表列变量,supercolvar代表更高阶的列变量,同之前一样,in和if用于选择样本或者选择范围,weight用于添加权重。 表6-2 table命令可以报告的统计量 freq 频数 mean 平均数 sd 标准差 semean 标准误 (sd/sqrt(n)) sum 总和 count、n 观测值个数 max 最大值 min 最小值 median 中位数 p# 各种百分位数 iqr IQR四分位距 【例6.1】 数据集auto.dta是Stata系统自带的关于1978年汽车市场的一个调查数据,该数据集共有74个观测值,12个变量。变量的具体情况是:make是字符型变量,表明生产厂商。其他均为数值型变量,price是汽车的价格(万元),mpg是行驶里程(英里),rep78是在该年度修理次数,foreign是虚拟变量,赋值1代表国外产,0代表国产。数据用几个变量揭示了汽车的重要特征:headroom、trunk、length、turn、displacemen、gea_ratio依次代表汽车内部空间大小、后备箱空间大小、身长、转弯半径、排气量和变速比。 本例演示如何利用table命令完成如下两个任务: (1)使用table命令创建关于rep78的频数表,并在表中显示mpg的观测值个数、平均数、标准差和中位数。 (2)使用table命令创建关于foreign和rep78的二维表格,并在表中显示mpg的平均数。 【例6.2】本例使用一个关于肺炎的调查数据集byssin1.dta来说明table命令创建多维表格。数据集中每个观测值代表了一类人,变量prob是该类人罹患肺炎的概率,smokes是代表是否吸烟的虚拟变量,race是关于是否是白人的虚拟变量,workplace按照工作场所的烟尘等级划分为三类,1为最少,3为最多,sex是性别,1代表男性。最关键的变量是pop,表示具有该观测值的个体的数量,比如,pop=3,则意味着样本中有3个人具有该观测值所揭示的性质。在这个数据集中,pop的取值从0到507不等,其中0说明没有任何个体具有该观测值所揭示的性质,507则说明有507个个体具有同样的性质。我们鼓励读者使用codebook命令对这些变量的具体赋值更深入地考察。 下面我们演示如何完成如下两个创建多维表格的任务。 (1)创建一个关于workplace、smokes和race的三维列联表。 (2)创建一个关于workplace、smokes、race和sex的四维列联表。 6.2.2使用tabulate命令进行列联表分析 1. 一维tabulate命令 tabulate的一维命令主要用于生成含有频数的一维表格,使用比较简单,当我们想查看某个变量的赋值情况时,也可以使用tabulate来得到大体的印象。下面是这个命令的标准结构: tabulate varname [if] [in] [weight] [, tabulate1_options] 同之前一样,in和if用于选择样

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档