- 16
- 0
- 约7.26千字
- 约 35页
- 2019-01-22 发布于天津
- 举报
大数据之R语言培训课件(ppt 35页)
大数据
BIG DATA
习题
of
44
2
5.1 R语言简介
《大数据》配套PPT课件
用于统计计算和作图的语言
计量经济学
实证金融学
统计遗传学等
免费、开源及
统计模块齐全
R
语言
数据挖掘
机器学习
自然语言处理等
十大热门编程语言第七位
of
44
3
5.1 R语言简介
《大数据》配套PPT课件
基于S语言的一个GNU项目,语法来自Scheme语言,
R语言的源代码正式发布到自由软件协会的FTP上
核心开发团队达到20人,来自牛津大学、ATT实验室等等。
不单是一门语言,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型
S语言
2013年
of
44
4
5.1.1R语言产生与发展历程
5.1 R语言简介
《大数据》配套PPT课件
5.1.2 R语言基本功能介绍
数据存储和处理系统
数组运算工具,(其向量、矩阵运算方面功能尤其强大)
完整连贯的统计分析工具
优秀的统计制图功能
R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能
of
44
5
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据读取和存储能力
可以保存和加载R语言的数据,与R.data的交互是通过R语言的save( )函数和load()函数实现的
能够加载和导出.csv文件(write.csv()函数和read.csv()函数)
能够导入SPSS/SAS/Matlab等数据集
可以通过RODBC接口,从数据库中导入数据
可以通过odbcConnectExcel接口从Excel表格中导入数据
R语言
读取
存储
of
44
6
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据处理功能
数据挖掘中,需要花70%以上的时间在数据处理上,R语言提供丰富的数据处理功能
筛选
filter() 按给定的逻辑判断筛选出符合要求的子数据集
排列
arrange() 按给定的列名依次对行进行排序
选择
select() 用列名作参数来选择子数据集
变形
mutate()或transformation()用来进行列变形
汇总
summarise()进行汇总操作,返回一维结果
分组
分组动作 group_by()
of
44
7
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据处理能力
向量
因子
数组
矩阵
列表
R语言处理数据的最基本单位是向量,而不是原子数据
R语言定义了一类非常特殊的数据类型:因子
数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的
较复杂的继承关系,和数组的关系既是父亲又是儿子,还是孙子
列表由向量直接派生而来
数据框
可以将几个不同类型但长度相同的向量合并到一个数据框
特殊值数据
定义了如NULL、NA、NaN、inf等特殊数据
有用函数
提供了获取数据类型信息的一些有用函数
of
44
8
5.1 R语言简介
《大数据》配套PPT课件
统计分析
应用数学
计量经济
金融分析
财经分析
生物信息学
数据可视化
数据挖掘
人工智能
R语言
应用领域
of
44
9
5.1.3 R语言常见的应用领域
习题
of
44
10
5.2 R与数据挖掘
《大数据》配套PPT课件
数据挖掘
数据挖掘(Data Mining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉;
主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。
R语言与数据挖掘有关的任务视图
MachineLearning:主要涉及机器学习和统计学习功能
Cluster:主要涉及聚类分析和有限混合模型
TimeSeries:主要涉及时间序列分析
Multivariate:主要用于多元统计分析及其算法
Spatial:主要用于空间数据分析
R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具
of
44
11
5.2 R与数据挖掘
《大数据》配套PPT课件
分类与预测算法
of
44
12
5.2.1 R软件包与常见的数据挖掘算法介绍
5.2 R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—K-近邻算法
of
44
13
如果一个样本与特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
library(kknn)
data(iris)
m - dim(iris)[1]
val - sample(1:m, size =round(m/3), replace = FALSE,
+prob= rep(1/m, m))
iris.learn - iris[-val,]
i
您可能关注的文档
最近下载
- 中班(4—5岁)孩子学习与发展指南.docx VIP
- 2023市政公用工程最高质量水平评价实体质量核查要点 (11.城市桥梁工程).docx
- 2026 年人教版高一化学上册期末质量检测试卷(附答案可下载).docx VIP
- 轴流风机技术规范.DOC VIP
- 2023市政公用工程最高质量水平评价实体质量核查要点(13.城市隧道工程).docx
- 乳腺癌诊疗指南(2022年版).pdf VIP
- 2023最高质量水平评价实体质量核查要点(1.通用部分).doc VIP
- 2022CSCO乳腺癌诊疗指南.pdf VIP
- 市政工程最高质量水平评价申报注意事项.docx VIP
- 高中数学公式大全--(图片版).docx VIP
原创力文档

文档评论(0)