数据的相关性分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

课型讲练

授课班级大数据授课时数2

1.理解数据相关性的概念。

教学目标2.能够根据数据绘制散点图。

3.能够根据数据计算相关系数。

教学重点1.理解数据相关性的概念。

1.能够根据数据绘制散点图。

教学难点

2.能够根据数据计算相关系数。

相关分析可以判断多个字段之间的关联程度,其中相关系数的原理理解

学情分析

较难,可以简化理解,重点在于计算。

自然界许多事物之间总是相互联系的,并可以通过一定的数量关系反映出来,这

种依存关系一般可以分为两种:函数关系和相关关系。

函数关系是指事物之间存在着严格的依存关系,变量之间可以用函数y=f(x)表示

出来,如V=IR,S=πR2等。如果所研究的事物或现象之间,存在着一定的数量关系,

即当一个变量取一定数值时,另外几个与之相对应的变量按照某种规律在一定的范围

内变化,这就是相关关系。

一、相关关系的概念

变量之间不稳定、不精确的变化关系称为相关关系。相关关系反映出变量之间虽

然相互影响,具有依存关系,但彼此之间却不像函数那样一一对应,如人的身与和体

重、学生成绩与智商。在复杂的社会中,各种事物之间的联系大多体现为相关关系,

而不是函数关系,这主要是因为影响一个变量的因素往往有很多,而其中的一些因素

还没有被完全认识,因此,这些偶然因素导致了变量之间的不确定性。

二、相关分析

相关分析是研究两个或两个以上处于同等地位变量之间的相关关系的统计分析

方法。例如人的身高和体重,相关分析在工农业、水文、气象、社会经济和生物学等

方面都有应用。

相关分析通常有2种方法,一种是散点图,另一种是相关系数。散点图以横轴表

示自变量,以纵轴表示因变量,将两个变量之间的对应关系以坐标点的形式逐一标在

直角坐标系中。相关系数是一个研究变量之间相关程度的统计指标。

1.利用散点图进行相关分析

(1)强相关和弱相关

相关关系从强弱程度上分,分为强相关和弱相关。若两个变量的关系较为密切,

就称为强相关,若两个变量的关系较为疏远,就称为弱相关。从散点图来看,如果呈

现窄长且密集时,就是强相关;如果散点图呈现宽松且稀疏时,就是弱相关。

(2)正相关和负相关

如果散点分布在一条直线附件,称为线性相关,线性相关属于强相关。线性相关

从相关方向上可分为正相关和负相关。正相关是指一个变量增加,另一个变量随之增

加,或一个变量数值减少,另一个变量随之减少,即两个变量的变化方向是相同的。

负相关是指一个变量增加,另一个变量反而减少,或一个变量减少,另一个变量反而

增加,即两个变量的变化方向是相反的。

从图形上来看,当散点图呈现“左下→右上”趋势的时候,就是正相关;从图形

上来看,当散点图呈现“左上→右下”趋势的时候,就是负相关。

绘制散点图的一般方法为:

importmatplotlib.pyplotasplt

plt.scatter(x,y)

plt.show()

其中,x和y表示接受的x轴和y轴对应的数据。

示例代码如下:

importnumpyasnp

importpandasaspd

importmatplotlib.pyplotasplt

dict={a:[1,2,3,4,5,6],b:[2,2,4,3,5,6],c:[5,4,4,3,2,2],d:[2,1,2,2,2,1]}

data=pd.DataFrame(dict)data=pd.DataFrame(dict)

初始数据为初始数据为

plt.scatter(data[a],data[b])#正相关

plt.show()

plt.scatter(data[a],data[c])#负相关

plt.show()

plt.scatter(data[a],data[d])#弱

文档评论(0)

132****9916 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档