- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据分析方法与应用第2章数据分析基础
2.1数据的类型与分布目录CONTENTS2.2变量之间的关系第2章数据分析基础2.3数据的可视化——基于Excel(2019)的应用2.4数据的输入
2.1数据的类型与分布数据的类型定性数据(也称为名义数据)是一种用于描述各种类别或属性的数据。定量数据是以数字表现的数据,它可以被测量、计算和比较。数据的收集方式(数据收集方式会影响数据的分布特征)截面数据(Cross-sectionaldata)是指在同一时间点上对某个总体进行测量所得到的数据。时间序列数据(Timeseriesdata)是一种按时间顺序排列的观测值的集合,这些观测值通常时间间隔采集。
2.2变量之间的关系协方差(Covariance)是描述两个随机变量之间关系的统计量。它用于衡量两个变量在同一时间段内的变动趋势是否同向或相反。当协方差为正值时,表示两个变量呈正相关关系,即当一个变量增大时,另一个变量也可能会增大。当协方差为负值时,表示两个变量呈负相关关系,即当一个变量增大时,另一个变量可能会减小。当协方差接近于零时,表示两个变量之间没有线性关系。协方差只能描述变量之间的线性关系,并不能确定其因果关系。2.2.1协方差
相关系数(Pearsoncorrelationcoefficient)是一种用于衡量两个变量之间线性关系强度和方向的统计量。相关系数用希腊字母ρ表示,取值范围为[-1,1]。相关系数定量地刻画了X和Y的相关程度,即|ρxy|越大,相关程度越大;|ρxy|=0对应相关程度最低。相关系数是一种非参数统计量,不受变量分布形状的影响,适用于各种分布。其中2.2变量之间的关系2.2.2相关系数
散点图是描述变量关系的一种直观方法,可以从散点图中直观地看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。2.3数据的可视化——基于Excel的应用2.3.1散点图
【例2-1】广告业近年来得到广泛应用,尤其在产品推广中发挥了巨大作用,也影响着产品的销售收入,因此了解广告费对销售收入的影响至关重要。某公司销售额和广告费用的数据如表2-1所示。表2-1某公司销售额和广告费用广告费用(万元)销售额1052126015701877208223942.3数据的可视化——基于Excel(2019)的应用2.3.1散点图
1)打开Excel表格,选中需要制作散点图的数据单元格,单击“插入”菜单下的散点图。绘制广告费用对销售收入的影响情况的散点图2.3数据的可视化——基于Excel(2019)的应用2.3.1散点图
2)选中“XY散点图”,然后界面右侧会显示很多的散点图,选择一个合适的,单击确定。3)单击“图表标题”,输入标题名称。2.3数据的可视化——基于Excel(2019)的应用2.3.1散点图
4)在图表空白处单击选中图表,然后单击右上角的“+”号,勾选“数据标签”,这样每个散点图数据点上都会显示数值,单击“趋势线”,还能添加趋势线。可以发现销售额和广告费用之间呈现一种线性关系,即随着广告费用的增加,销售额也会增加。2.3数据的可视化——基于Excel(2019)的应用2.3.1散点图
【例2-2】三大产业的发展对我国经济发展有着举足轻重的作用,通过柱形图和折线图表示三大产业在2019-2022年的增加值,可以直观看出这四年的变化情况。我国2019-2022年第一、第二和第三产业增加值如表2-2所示。表2-2我国2019-2022年第一、第二和第三产业增加值年份第一产业增加值第二产业增加值第三产业增加值201970,467386,165534,233202077,754384,255553,977202183,086450,904609,680202288,345483,164638,6982.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图
1)打开Excel,选择相关数据,选定插入,单击“柱状图形”。绘制我国2019-2022年第一、第二和第三产业增加值变化的柱形图2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图
2)选择一种柱形图,单击确定。3)单击“图表设计”菜单项,在“图标布局”和“图表式样”中选择需要的布局和式样。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图
4)如果选择有图表标题和坐标轴标题的布局,则得到如下的图表。单击标题可以修改标题文本。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图
5)修改横坐标轴。右键单击横坐标,单击选择数据,在水平(分类)轴标签下
文档评论(0)