分析数据间的相关性..ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
An Introduction to Database Systems Excel数据统计与分析 主讲:张小兰 电话Email:zhangxl5659@163.com 第四章 分析数据间的相关性 线性相关 4.2两数值型数据间的相关性 (1)图形分析法 散点图是统计关系分析中最常用的图形工具,它将数据以点的形式画在直角平面上,它将一组数据作为纵轴,将另一组数据作为纵轴,事物对象的每个个体以点的形式出现。 (1)若所有点落在一条直线上,说明数据间是线性相关,是函数关系,不是统计关系。 (2)所有点杂乱无章,从形态上看不出任何特征和规律,表明数据间不相关 (3)图形点大致呈某种曲线形态,表明数据间存在非线性相关 (4)所有点大致落在一条直线周围,表明数据间有线性相关性。 实践 1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据,现要求利用散点图法分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性。 (2)数值分析法 图形能够直观展现数据间的相关关系,但并不精确。简单相关系数通过数字准确描述数据间线性相关的方向和强弱程度。 简单相关系数 简单相关系数取值范围[-1,1] 简单相关系数0,表示两个数据正线性相关 简单相关系数0,表示两个数据负线性相关 简单相关系数=0,表示两个数据不存在线性相关 简单相关系数0.8,表示两个数据相关性很强 简单相关系数0.3,表示两个数据相关性较弱 求简单相关系数的方法: (1)简单相关系数可通过函数Correl或Pearson实现 (2)“数据分析”中相关系数命令 实践 1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据,现要求函数和“数据分析”命令分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性。 4.3两品质数据间的相关性 从人事数据中分析性别跟职称是否相关? (1)图形分析法 复式柱形图是柱形图的扩展,主要用于对事物两个或多个特征的分类对比。 (2)数值分析法---列联表 在该图基础上进一步计算一些简单的百分比。 列联表示例 列联表示例 实践 给定的性别与受教育程度数据进行相关性分析,做出他们的三维簇状柱形图及列联表。 对人事数据中性别与职称进行相关性分析,做出三维簇状柱形图及列联表。 4.4 相关的可靠性检验 总体与样本 常常存在这样的情况,我们所观察的只是部分或有限的个体,而需要判断的总体对象范围却是大量的,甚至是无限的。比如说为了考察某公司生产的一批电脑芯片的质量,需要了解芯片使用寿命这一指标。我们关心的是这一整批芯片的质量,但由于各种原因,只能抽取其中的一小部分进行测试。这时,这一整批芯片的质量和被抽取出来的那一部分的质量就构成了“整体”和“部分”的关系了。 假设检验的基础 假定数据符合正态分布 假设收集到无限多的数据,这些数据可能看起来像下图 我们可将这些数据看成平滑的分布 红线 正态曲线和概率 了解了正态曲线的平均值和标准偏差有助于估计风险 正态分布的应用 正态分布的应用2 假设检验的基本原理 显著性水平 显著性水平α是当原假设正确却被拒绝的概率 通常人们取0.05或0.01 这表明,当做出接受原假设的决定时,其正确的可能性(概率)为95%或99% (1)数值型数据相关的可靠性检验 数值型数据相关的可靠性检验步骤如下: (1)首先提出两总体是否相关的假设,通常假设是两总体不相关。 (2)计算差距。计算当前相关系数与所提假设成立之间的差距。 (3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。 统计中国,通常的把握程度为0.95,0.90,0.99 相关系数的差距 实践 个人购买商品住在面积与商品住宅销售额之间的相关性进行可靠性检验。 (2)品质型数据相关的可靠性检验 卡方分析的主要步骤: (1)首先提出两总体是否相关的假设,通常假设行变量总体与列变量总体不相关。 (2)计算差距。计算目前列联表中的频数数据所呈现的实际相关性与行列变量总体不相关之间的差距有多少 (3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。 统计中,通常的把握程度为0.95,0.90,0.99 实践 对性别与受高等教育程度之间的相关性进行可靠性检验。 方法一:利用卡方分析 方法二:利用Chitest函数 (1)假设性别与高等教育程度无关,得到期望频数区域。 (2)利用Chitest函数,求得chitest (实际频数,期望频数)的值,该值代表假设成立的概率。 (3)若该概率为小概率事件,则认为假设不成立,

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档