网站大量收购独家精品文档,联系QQ:2885784924

SAS应用基础6-3 属性数据分析演示教学.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS应用基础6-3 属性数据分析演示教学.ppt

1 属性数据分析 (列联表分析) 2 变量的类型 SAS中,变量按类型(Type)可分字符型和数值型两类。数值型变量就是用数字来计量的变量,而不能用数字来计量的变量则称为字符型变量。 按测量水平(Measurement Level)通常可将变量粗分为区间型(Interval)和名义型(Nominal). 3 区间型变量 所谓区间型变量是指本来的屈指范围可以是一个连续的数值区间,它可细分为间隔型和比率型。 间隔型—数值无绝对零点,间隔有意义,倍数无意义,只能做加减不能做乘除。 比率型—数值有绝对零点,可进行四则运算. 4 名义型变量 所谓名义型变量是指变量本身本质上不能用数值表示,在测量时即使用了数值表示,该数值也是名义上的,无真正意义。名义型变量可细分为分类型和有序型。 分类变量—变量的取值表示几个无次序之分的不同状态。 有序变量—变量的取值表示几个有内在顺序关系的状态。 5 属性数据 分类变量和有序变量统称为属性变量,有时也称字符型变量或定性变量。 间隔变量和比率变量则称为数值变量,有时也称定量变量或连续变量。 对属性变量进行数据分析称为属性数据分析。通常解决“产生汇总分类数据(频数表)”、“属性变量之间的独立性检验”、“计算属性变量间的关联系数”等问题。 在市场调查中得到的信息往往是分类信息,而非定量变量的具体值,需要做属性数据分析。 8 列联表的构成 9 列联表的形式 10 示例 data a; input smoke$ cancer$ num@@; cards; 吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121 ; proc freq; tables smoke*cancer; weight num; run; 11 示例(续) proc freq; tables smoke*cancer/nopercent norow nocol; weight num; run; 12 示例 data a; input city$ smoke$ cancer$ num@@; cards; 北京 吸烟 患病 40 北京 吸烟 未患 160 北京 不吸烟 患病 15 北京 不吸烟 未患 120 上海 吸烟 患病 45 上海 吸烟 未患 165 上海 不吸烟 患病 18 上海 不吸烟 未患 125 proc freq; tables city*smoke*cancer; weight num; run; 13 示例(续) proc tabulate; class city smoke cancer; table city*smoke*cancer; freq num; run; 14 列联表检验 对于数值型变量,如果分析它们之间的关系,最常用的方法就是回归分析和方差分析。但是,对于一些取离散值的定性变量要检验它们之间是否独立,只能使用列联表的检验方法。 列联表检验的零假设:是因素X 与因素Y 独立。列联表检验的核心是2 检验,比较频数与理论均值的差,如果差异达到一定的程度,则说明两个因素之间具有一定的关系,因此否定零假设。 15 用FREQ过程做列联表检验 列联表检验是通过在FREQ 过程中添加2检验的选项实现的,一般用法如下: PROC FREQ DATA 数据集 TABLES 因素A*因素B / CHISQ WEIGHT 试验结果 RUN; 16 列联表检验示例1 例:为了判断患心脏病是否与吸烟有关调查了862 个人调查结果如表 data heart; do a=1 to 2; do b=1 to 2; input f@@; output; end; end; cards; 243 185 156 278 run; proc freq; weight f; tables a*b / chisq; run; /* a=1为患心脏病, a=2为未患心脏病*/ /* b=1为吸烟, b=2为不吸烟*/ 17 列联表检验结果输出 结果大体分为3 个部分: 第一 部分是一个22 的频数统计表,在每一格内有4 行数字。第一行数字是频数(Frequency),第二行数字是百分比(Percent),第三行数字是行百分比(Row Pct), 第四行数字是列百分比(Col Pct )。所谓频数,就是位于这一格内的观测个数。而百分比,就是用频数除以总的观测数。行百分比,就是用频数除以这一行的观测数。列百分比,就是用频数除以这一列的观测数。 结果的第二部分是卡方检验的结果,第三部分是Fisher 精确检验的结果。卡方检验要求每个单元格的频数不少于5,否则的话就要看Fisher 精确检验的结果。在这个例子中,只需要看卡方检验的结果:P 值为小于0.0001 ,在0.05 水平下应当拒绝零假设,即认为抽烟对心脏病确实存在

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档