第九讲属性数据列联表.pptVIP

下载本文档

1
0
约5.47千字
约 45页
2025-07-08 发布于广东
举报
版权申诉

第九讲属性数据列联表.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

（多项分布）对数线性模型二维列联表的更完全的对数线性模型为这里的(ab)ij代表第一个变量的第i个水平和第二个变量的第j个水平对ln(mij)的共同影响，称为交叉效应。即当单独作用时，每变量的某水平对ln(mij)的影响只有ai(或bj)大，但如这两个变量共同影响就不仅是ai+bj，而且还多出一项。这里的交叉项的诸参数的大小也是相对的，也需要约束条件来得到其“估计”。第30页，共45页，星期日，2025年，2月5日用table7.txt数据拟合对数线性模型假定（多项分布）对数线性模型为这里ai为收入（i=1,2,3代表收入的低、中、高三个水平），bj为观点（j=1,2代表不赞成和赞成两个水平），gk为性别（k=1,2代表女性和男性两个水平）,mijk代表三维列联表对于三个变量的第ijk水平组合的出现次数，eijk为残差而从相应的参数估计输出结果，可以得到对ai的三个值的估计为0.5173,0.2549,0.0000,对bj的两个值的估计为-0.6931,0.0000,对gk的两个值的估计为0.1139,0.0000。(多项对数线性模型无常数项)第31页，共45页，星期日，2025年，2月5日对数线性模型高维表的检验统计量和二维表一样也包含了Pearsonc2统计量和似然比c2统计量,检验对数线性模型拟合的好坏程度的。就我们这里的三维列联表问题，如果只考虑各个变量单独的影响，而不考虑变量组合的综合影响，计算机输出的Pearsonc2统计量和似然比c2统计量得到的p-值分别为0.0029和0.0011。第32页，共45页，星期日，2025年，2月5日第1页，共45页，星期日，2025年，2月5日属性数据分析为了某种目的通过调查表进行社会调查得到的数据——调查数据，一般都是属性数据．即在许多调查研究中，所得到的信息是样本中个体的分类，而不是定量变量的值．例如：在某次调查中，根据人们的性别、对颜色的喜好等，将他们分类．在某次政府调查中，根据公司的产品类型、公司的所在地区、及产品是否出口，将这些公司分为不同组．第2页，共45页，星期日，2025年，2月5日在市场研究中，为了了解一种新产品的吸引力，根据顾客是否已看到这种新产品的广告及是否已购买该厂新产品，将顾客分为不同组．这种类型的数据可以方便地汇总在一张表格中，用来表示每个组中的观测个数．属性数据分析第3页，共45页，星期日，2025年，2月5日一、属性数据1.变量的类型根据变量的取值情况可以分为以下几种：第4页，共45页，星期日，2025年，2月5日(1)名义变量变量值是几个没有次序之分的不同状态，它给变量值赋予名称．例如，性别就是一个名义变量，用“男”和“女”作为其取值．也可以用“1”和“2”代表取值，但这二个数字只是取值的名称，它们在数值上没有任何意义．人们驾驶的汽车类型也是名义变量的例子，可以把“Toyota”，“Chevrolet”，“Volkswagens”等作为变量值的代码；也可以用“1”代表Toyota牌，“2”代表Chevrolets牌，“3”代表Volkswagens牌等等．但是这些数字除了把该变量的一个值与一个名称联系起来之外没有任何其他的意义．还有职业、血型、是否患病、喜爱的颜色等等都是名义变量．第5页，共45页，星期日，2025年，2月5日(2)有序变量变量值是有严格次序的不同状态．例如民意测验中常用到以下取值的有序尺度：坚决拥护、拥护、弃权、反对、坚决反对，比如：“我认为新的税法比老税法有改进”的一种陈述，要求在有序尺度中选择代表自己意见的回答．又如按治疗效果，把病人分为治愈(1)、显效(2)、好转(3)、无效(4)等四类．把产品按质量分为：不好、一般、好、很好．文化程度分为高、中、低等．在以上几个例子中，变量的取值有内在的顺序．同名义数据一样，你可以给这些值赋予不同数字，而你赋给变量的具体数字并不重要，但规定的这些数字与取值顺序必须相匹配．对于治疗效果的例子，既可以规定变量值为1，2，3和4，也可以规定为1，10，20和100．如果选择的分析方法适用于该变量，那么该方法只依赖变量值的顺序而与变量的数值无关．第6页，共45页，星期日，2025年，2月5日(3)区间变量(或间隔变量)区间变量是有顺序大小的数值变量，且数值间的差值是有意义的．例如考虑温度，40度比10度热30度，而40度和10度是相对于人们取定的0度而言的．这类变量对减法：两值之差是有意义的；但对两值的比率是没有意义的。例如由40／10=4，而认为40度比10度热3倍的说法是不合适的．区间变量与有序变量相对比，有序变量值之差是没有什么意义，如治疗效果是有序变量，2和1之间的差与3和