- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS应用基础6-3 属性数据分析演示教学.ppt
1
属性数据分析
(列联表分析)
2
变量的类型
SAS中,变量按类型(Type)可分字符型和数值型两类。数值型变量就是用数字来计量的变量,而不能用数字来计量的变量则称为字符型变量。
按测量水平(Measurement Level)通常可将变量粗分为区间型(Interval)和名义型(Nominal).
3
区间型变量
所谓区间型变量是指本来的屈指范围可以是一个连续的数值区间,它可细分为间隔型和比率型。
间隔型—数值无绝对零点,间隔有意义,倍数无意义,只能做加减不能做乘除。
比率型—数值有绝对零点,可进行四则运算.
4
名义型变量
所谓名义型变量是指变量本身本质上不能用数值表示,在测量时即使用了数值表示,该数值也是名义上的,无真正意义。名义型变量可细分为分类型和有序型。
分类变量—变量的取值表示几个无次序之分的不同状态。
有序变量—变量的取值表示几个有内在顺序关系的状态。
5
属性数据
分类变量和有序变量统称为属性变量,有时也称字符型变量或定性变量。
间隔变量和比率变量则称为数值变量,有时也称定量变量或连续变量。
对属性变量进行数据分析称为属性数据分析。通常解决“产生汇总分类数据(频数表)”、“属性变量之间的独立性检验”、“计算属性变量间的关联系数”等问题。
在市场调查中得到的信息往往是分类信息,而非定量变量的具体值,需要做属性数据分析。
8
列联表的构成
9
列联表的形式
10
示例
data a;
input smoke$ cancer$ num@@;
cards;
吸烟 患病 43
吸烟 未患 162
不吸烟 患病 13
不吸烟 未患 121
;
proc freq;
tables smoke*cancer;
weight num;
run;
11
示例(续)
proc freq;
tables smoke*cancer/nopercent norow nocol;
weight num;
run;
12
示例
data a;
input city$ smoke$ cancer$ num@@;
cards;
北京 吸烟 患病 40
北京 吸烟 未患 160
北京 不吸烟 患病 15
北京 不吸烟 未患 120
上海 吸烟 患病 45
上海 吸烟 未患 165
上海 不吸烟 患病 18
上海 不吸烟 未患 125
proc freq;
tables city*smoke*cancer;
weight num;
run;
13
示例(续)
proc tabulate;
class city smoke cancer;
table city*smoke*cancer;
freq num;
run;
14
列联表检验
对于数值型变量,如果分析它们之间的关系,最常用的方法就是回归分析和方差分析。但是,对于一些取离散值的定性变量要检验它们之间是否独立,只能使用列联表的检验方法。
列联表检验的零假设:是因素X 与因素Y 独立。列联表检验的核心是2 检验,比较频数与理论均值的差,如果差异达到一定的程度,则说明两个因素之间具有一定的关系,因此否定零假设。
15
用FREQ过程做列联表检验
列联表检验是通过在FREQ 过程中添加2检验的选项实现的,一般用法如下:
PROC FREQ DATA 数据集
TABLES 因素A*因素B / CHISQ
WEIGHT 试验结果
RUN;
16
列联表检验示例1
例:为了判断患心脏病是否与吸烟有关调查了862 个人调查结果如表
data heart;
do a=1 to 2;
do b=1 to 2;
input f@@;
output;
end;
end;
cards;
243 185
156 278
run;
proc freq;
weight f;
tables a*b / chisq;
run;
/* a=1为患心脏病, a=2为未患心脏病*/
/* b=1为吸烟, b=2为不吸烟*/
17
列联表检验结果输出
结果大体分为3 个部分:
第一 部分是一个22 的频数统计表,在每一格内有4 行数字。第一行数字是频数(Frequency),第二行数字是百分比(Percent),第三行数字是行百分比(Row Pct), 第四行数字是列百分比(Col Pct )。所谓频数,就是位于这一格内的观测个数。而百分比,就是用频数除以总的观测数。行百分比,就是用频数除以这一行的观测数。列百分比,就是用频数除以这一列的观测数。
结果的第二部分是卡方检验的结果,第三部分是Fisher 精确检验的结果。卡方检验要求每个单元格的频数不少于5,否则的话就要看Fisher 精确检验的结果。在这个例子中,只需要看卡方检验的结果:P 值为小于0.0001 ,在0.05 水平下应当拒绝零假设,即认为抽烟对心脏病确实存在
您可能关注的文档
- ppt 第五课价值观 大学生成功之路 ——成功的指南针教材课程.ppt
- ppt 高三家长会-主题班会知识介绍.ppt
- PPT--6.1---(三)英美音差异教学文稿.ppt
- PPT-0.导言 论文写作指要教程 教材ppt.ppt
- PPT-1.绪论 论文写作指要教程 教材ppt.ppt
- PPT-3.论文资料收集 论文写作指要教程 教材ppt.ppt
- PPT-5.论文写作与 及规范 论文写作指要教程 课件ppt.ppt
- ppt02 Recording transactions 会计英语(第四版) 教学文稿.ppt
- ppt07 Liabilities 会计英语(第四版) 幻灯片课件.ppt
- ppt09 Statement of cash flows 会计英语(第四版) 教学文稿.ppt
- 2025年大学试题(工学)-工程与技术科学考试近5年真题集锦(频考类试题)带答案.docx
- 2025年中国体育场涂料市场现状分析及前景预测报告.docx
- 2025年企业文化企业建设知识竞赛-宁波银行企业文化考试近5年真题荟萃附答案.docx
- 2025年医学高级职称-神经外科学(医学高级)考试近5年真题荟萃附答案.docx
- 2025年中国封口包装机数据监测报告.docx
- 2025年中国尼龙锁孔数据监测报告.docx
- 2025年中国展架护网项目投资可行性研究报告.docx
- 2025年中国地震预测仪项目投资可行性研究报告.docx
- 2025年中国固结仪市场现状分析及前景预测报告.docx
- 2025年中国工艺绣花帽项目投资可行性研究报告.docx
最近下载
- 热分布报告样本.pdf
- 2025年一建一级建造师建筑实务案例分析考点重点知识总结高分笔记.pdf VIP
- 手足口病的诊断与治疗课件.ppt VIP
- 会计法律法规答题答案.doc VIP
- 我国商业银行开展绿色信贷业务存在的问题和对策.docx VIP
- 医院消防安全除患整治攻坚行动工作总结8篇.docx VIP
- 《桃花源记》比较阅读85篇(历年中考语文文言文阅读试题汇编)(含答案与翻译)(截至2020年).doc
- 2025年北京东城区高三一模高考英语试卷试题(含答案详解).docx
- 2024潍坊护理职业学院招聘笔试真题及参考答案详解一套.docx VIP
- 年产300吨2-乙酰呋喃分离工段的工艺设计.docx
文档评论(0)