- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学101张学阳顾客购买能力问题
《统计软件》案例分析
顾客购买能力问题
班 级: 数学101 学 号: 1009300132 姓 名: 张学阳
2013年6月
一、问题重述
表1记录了某公司在过去6个月中的顾客信息,其中包括顾客的性别(sex:男和女),顾客的年收入(income:低、中和高)和购买价值(purchase:1=大于等于100元,0=小于100元),共记录了431位顾客的资料。试用“分析家”完成以下练习:
1)生成购买价值与顾客年收入和顾客性别的列联表,并分析购买行为与性别及收入高低的联系;然后检验购买价值与顾客的年收入及顾客的性别是否有关联性。
2)把性别(sex)作为分层变量生成购买价值与顾客年收入的列联表,并分析比较男女顾客中收入高低的人群的购买行为。
3)对有序变量购买价值与顾客年收入检验是否有显著的有序关联性,并计算关联性统计量。
价值100元 价值100元 男 女 男 女 低收入 35 55 8 34 中收入 58 40 15 31 高收入 37 44 38 36 二、属性数据分析介绍
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。
对属性数据进行分析,将达到以下几方面的目的:
1) 产生汇总分类数据——列联表;
2) 检验属性变量间的独立性(无关联性);
3) 计算属性变量间的关联性统计量;
4) 对高维数据进行分层分析和建模。
2.1属性变量关联性分析
对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。
属性变量关联性检验的假设为
:变量之间无关联性; :变量之间有关联性
由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:
:变量之间独立; :变量之间不独立
2.2检验
在双向表的情形下,如果行变量与列变量无关联性的原假设成立,则列联表中各行的相对分布应近似相等,即
或
其中称为列联表中单元在无关联性假设下的期望频数,而是单元的观测频数。
为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是检验。统计量为:
在成立的条件下,当观测数据较大时,统计量的分布近似服从自由度为的分布。
由于分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的值往往偏大,相应的值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正,用表示。
注:通常要求检验应满足的条件是:且所有单元的期望频数均不小于5。
校正的条件:但有单元的期望频数小于5。
3.精确检验
精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。精确检验计算在成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率p之和
4.有序变量关联性分析
对于数值变量,可以计算两两的相关系数。属性变量因为没有数值概念所以不能计算相关系数,但对于两个有序变量可以计算类似于相关系数的关联性量度。用来度量有序变量关联程度的统计量有统计量、统计量和统计量等。这几个统计量均由以下定义的观测对一致或不一致的个数(即P和Q)来计算。
设(A1,B1)和(A2,B2)是一对观测,若A1A2且B1B2,或A1A2且B1B2则称该对观测是一致的;若A1A2且B1B2,或A1A2且B1B2则称该对观测是不一致的。
用P表示所有观测对中一致对的个数,Q表示所有观测对中不一致对的个数。
统计量(Gamma)的定义为:
统计量(Kendal Tau-b)的定义为:
统计量(Kendal Tau-c)的定义为:
其中。
这三个统计量的取值均在-1.0到1.0之间,值接近于1.0表示正关联,接近于-1.0表示负关联,等于0表示没有相关关系。
对于双边检验,A是具有概率p小于或等于观测表概率的表的集合;对于左(右)边检验,A是这样一些表的集合,其中每个表的单元中频数小于(大于)或等于观测表中相应的频数。
三、问题求解
3.1 分析家模块求解) 在“分析家”中,打开数据集:选择“Solutions”→“Analysis”→“Analyst”,再选择“file”→“Open By SAS Name”将导入的数据打开,如图所示
3) 选择菜单“Statistics”→“Table Analysis”,打开“Table Analysis”对话框;
4) 选中变量INCOME,单击“Row”按钮,将其移到行变量框
您可能关注的文档
- 政治学原理-作业.doc
- 政治学原理复习资料.doc
- 政府采购机票操作手册.doc
- 政治学原理简答题及论述题试题及答案.doc
- 政治学基础作业题答案.doc
- 政治学基础第三篇政治行为.doc
- 政治学科普知识试题.doc
- 政治学绪论综合习题.doc
- 政治演说中名词性隐喻的认知研究.doc
- 政治生活教材变动.doc
- 西方国家教育制度.pptx
- 辅警行为规范解读.pptx
- 躺平式干部自查整改措施.pptx
- 小学生宪法教育课.pptx
- 2024—2025学年度广东省茂名市第一次校际考试高二下学期3月月考历史试题(含答案).docx
- 2024-2025学年七年级下学期道德与法治期中模拟试卷(二)(统编版2024新教材含答案解析).docx
- 2024—2025学年度山西省怀仁市大地学校高二下学期第二次月考历史试题(含答案).docx
- 2024-2025学年八年级下学期道德与法治期中模拟试卷(二)(统编版含答案解析).docx
- 2024-2025学年八年级第二学期英语期中模拟试卷(三)(译林版含答案解析).docx
- 2025届甘肃省平凉市第一中学等校高三下学期4月月考历史试题(含答案).docx
文档评论(0)