数据分析基础——R语言实现教学课件2.pptxVIP

  • 19
  • 0
  • 约1.74千字
  • 约 21页
  • 2022-06-13 发布于广东
  • 举报

数据分析基础——R语言实现教学课件2.pptx

课程结构 第1章 数据分析与R语言 第2章 R语言数据处理 第3章 数据可视化分析 第4章 数据的描述分析 第5章 推断分析基本方法 第6章 相关与回归分析 第7章 时间序列分析;;学习目标 掌握R语言的数据类型及其处理方法 使用R语言进行数据抽样和筛选 掌握数据类型转换的方法 用R语言生成频数分布表 思政目标 数据处理是数据分析的前期工作。在数据处理过程中要本着实事求是的态度,避免为达到个人目的而有意加工和处理数据 数值数据分组的目的是通过数据组别对实际问题进行分类,分组的应用要反映社会正能量,避免利用不合理的分组歪曲事实;在R中分析数据或创建一个图形时,首先要有分析或绘图的数据集(data set) R处理的数据集类型包括向量(vector)、矩阵(matrix)、数组(array)、数据框(data frame)、因子(factor)、列表(list)等;矩阵 二维数组,其中的每个元素都是相同的数据类型 用matrix函数可以创建矩阵 使用as.matrix函数可以将其他类型的数据转化成矩阵 使用rownames函数和colnames函数可以矩阵添加行名和列名 可使用t函数可以对矩阵做转置;数据框 数据框是一种表格结构的数据,类似于Excel中的数据表,也是较为常见的数据形式 ?创建数据框 使用data.frame函数可创建数据框;访问数据框 如果需要访问数据框中的某个变量或某些变量,也就是要对数据框中的特定变量进行分析,需用“$”符号指定要分析的变量,也可以使用下标[ ]进行指定 ?数据框的合并 使用rbind函数可以将不同的数据框按行合并;使用cbind函数可以将不同的数据框按列合并。需要注意,按行合并时,数据框中的列名称必须相同,按列合并时,数据框中的行名称必须相同,否则合并是没有意义的;因子 类别变量在R语言中称为因子(factor),因子的取值称为水平(level)。很多数据结构中都包含因子,分析或绘图时通常会按照因子的水平进行分类处理 使用factor函数可以将向量编码为因子 使用as.numeric函数将因子转换为数值 使用factor函数(参数设置ordered=TRUE)还可以将无序因子编码为有序因子;抽取简单随机样本 从一个已知的总体数据集中抽取随机样本可以采取不同的抽样方法,对应的R函数也不同 使用base包中的sample函数可以从一个已知的数据集中抽取简单随机样本,也可以用于抽取符合特定条件的数据 使用sampling包中的strata函数可以进行分层抽样 使用srswr函数采取有放回抽样方式抽取简单随机???本,使用srswor 函数可以采取无放回抽样方式抽取简单随机样本 使用doBy包的systematic函数可以进行系统抽样;数据筛选(data filter) 根据需要找出符合特定条件的某类数据。比如,找出每股盈利在2元以上的上市公司;找出考试成绩在90分及以上的学生,等等 使用R中的sample函数和which函数、dplyr包中的filter函数等均可以阿数据筛选;将变量转换成向量 为方便分析,可以将数据框中的某个变量转换为一个向量,也可以将几个变量合并转换成一个向量(注意:只有数据合并有意义时转换才有价值) ; 将短格式转化成长格式;频数(frequency)——落在某一特定类别(或组)中的数据个数 频数分布(frequency distribution)——把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来 由于类别数据本身就是用文字表达的类别,因此,只要先把所有的类别都列出来,然后计算出每一类别的频数,即可生成一张频数分布表 频数分布表中落在某一特定类别的数据个数就是频数 根据观察变量的多少,可以生成简单频数表、二维列联表和多维列联表等; 类别数据的频数分布表——二维列联表——例题分析; 类别数据的频数分布表——二维列联表——例题分析; 类别数据的频数分布表——频数表的简单分析——例题分析; 数值数据的频数分布表——例题分析; 数值数据的频数分布表——例题分析; 数值数据的频数分布表——例题分析;思维导图; THANKS

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档