简介定性资料统计分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
简介定性资料统计分析

第十二章 简介定性资料的统计分析 本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。 §12.1 定性变量数量化 前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。 如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。 数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。 例如定性变量是性别,记为X,如此赋值: 如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的观察单位应取不同的值。 例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值: 例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1, X2, X3, X4)来表示,如此赋值: 综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值: 以上K个类的次序可以交换。 对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值: 易知,如此赋值将使X1+X2+X3+X4?=1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。 定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。 §12.2 列联表 主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。 1 列联表的概念 列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直接进行分析并给出两个定性变量之间是否独立性检验。 先看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下: B A 吸烟 不吸烟 患肺癌 60 3 未患肺癌 32 11 研讨患肺癌是否与吸烟有关? 这张统计表称为2×2列联表,表中考察两个定性变量A和B,每个变量有两类,即A分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的()取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。 一般2×2列联表形式如下: B A B1 B2 A1 n11 n12 n1. A2 n21 n22 n2. n.1 n.2 n 其中表示第i行Ai和第j列Bj的样品出现的频数,一般可取任意非负整数。 这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为表(r和c可以不等)有如下形式: B A B1 B2 … Bc A1 n11 n12 … n1c n1. A2 n21 n22 … n2c n2. Ar nr1 nr2 … nrc nr. n.1 n.2 … n.c 如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。 在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。 2×2列联表,对应一个多项分布,检验A与B是否独立,等价于检验: 其中表示A为i、B为j的样品概率,和是相应的边缘概率,当独立性成立时, 理论频数为: 实际频数为:nij 运用x2检验作判定,需要知道列联表中实际频数与相应的理论频数。用估计量代替。基实际频数与理论频数有差异,这时可用其差值的大小来度量两个变量相关程度。相差愈大,表明为真的可能

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档