第4章?探索性数据分析
内容要点1、掌握R语言中的描述性统计方法。2、掌握R语言中箱线图、直方图、散点图、饼图的制作方法。
目录CONTENTS描述性统计方法数据可视化12
描述性统计方法描述性统计是指运用制表、分类、图形及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布及一些基本的统计图形。常用统计指标描述性统计包含多种基本描述统计指标,让用户对于数据结构可以有一个初步的认识,包含以下几种。●基本信息:样本数、总和。●集中趋势:均值、中位数、众数。●离散趋势:方差(标准差)、变异系数、全距(最小值、最大值)、内四分位距(25%分位数、75%分位数)。●分布描述:峰度系数、偏度系数。
描述性统计方法用户可选择多个变量同时进行计算,也可选择分组变量进行多组别的统计指标计算。R语言提供了不同统计指标的实现方式,见右。
描述性统计方法数据总结:R语言提供了大量对数据集进行描述性统计的包,以方便用户调用。summary()函数summary()函数可以获取描述性统计指标,提供最小值、最大值、四分位距和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。例如,summary(iris)的输出结果为:
描述性统计方法数据总结(续)psych包中的describe()函数psych包拥有一个名为describe()的函数,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误差。例如,describe(iris)的输出结果为:
描述性统计方法数据总结(续)str()函数以简洁的方式显示对象的数据结构及内容,可以查看数据框中每个变量的属性。例如,str(iris)的输出结果为:
描述性统计方法数据总结(续)attributes()函数可以提取对象除长度和模式以外的各种属性。例如,attributes(iris)的输出结果为:
数据可视化数据可视化是关于数据视觉表现形式的科学技术研究。这种数据视觉表现形式被定义为一种以某种概要形式抽取出来的信息,包括相应信息单位的各种属性和变量。无论数据简单与否,观察数据是必不可少的一个步骤。R语言提供了数据可视化的各种函数,可以将变量进行可视化展示。箱线图箱线图是一种用来显示一组数据分散情况资料的统计图,包含5个数据节点,分别为数据的最大值、上四分位数、中位数、下四分位数和最小值。箱线图是能同时反映数据统计量和整体分布的图形。使用boxplot()函数绘制箱线图,其部分参数如表4-1所示(见后页),其语法格式为:
数据可视化箱线图boxplot()函数其部分参数如表4-1所示:表4-1
数据可视化箱线图(续)以usedcars数据集为例,绘制箱线图,如图4-1和图4-2所示(为了清晰展现箱线图的各组成部分,下列图上标注为手动添加),代码如下:
数据可视化箱线图(续)以usedcars数据集为例,绘制箱线图,如图4-1和图4-2所示(为了清晰展现箱线图的各组成部分,下列图上标注为手动添加),代码如下:
数据可视化直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。它可用于整理统计数据,了解统计数据的分布特征,即数据分布的集中或离散状况。使用hist()函数绘制直方图,其参数和boxplot()函数相同,其语法格式为:以usedcars数据集为例,绘制直方图,用main参数设置直方图的标题,用xlab参数设置横坐标轴标题,运行结果如图4-3所示,代码如下:自定义分组数与颜色绘制直方图,用breaks指定组数,col指定颜色,结果如图4-4所示,代码如下:boxplot()函数语法格式代码
数据可视化直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。它可用于整理统计数据,了解统计数据的分布特征,即数据分布的集中或离散状况。自定义分组数与颜色绘制直方图,用breaks指定组数,col指定颜色,结果如图4-4所示,代码如下:代码
数据可视化散点图:散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。使用plot()函数可以绘制散点图(plot()函数可以绘制多种图形),其参数如表4-2所示,其语法格式为:plot()函数语法格式表4-2
数据可视化散点图(续)以usedcars数据集为例,进行散点图的绘制,结果如图4-5所示,代码如下:代码:绘制usedcars数
您可能关注的文档
- R语言大数据分析与挖掘 课件 第八章 分类算法.pptx
- R语言大数据分析与挖掘 课件 第二章 R语言编程基础.pptx
- R语言大数据分析与挖掘 课件 第九章 关联算法.pptx
- R语言大数据分析与挖掘 课件 第六章 时间序列算法.pptx
- R语言大数据分析与挖掘 课件 第七章 线性回归算法.pptx
- R语言大数据分析与挖掘 课件 第三章 数据预处理.pptx
- R语言大数据分析与挖掘 课件 第十章 聚类算法.pptx
- R语言大数据分析与挖掘 课件 第五章 数据采集.pptx
- R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论.pptx
- 河北邢台市2025-2026学年高二上学期2月期末语文试题(含解析).docx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
原创力文档

文档评论(0)