- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《大数据》第5节r语言
大数据
BIG DATA
习题
of
44
2
5.1 R语言简介
《大数据》配套PPT课件
用于统计计算和作图的语言
计量经济学
实证金融学
统计遗传学等
免费、开源及
统计模块齐全
R
语言
数据挖掘
机器学习
自然语言处理等
十大热门编程语言第七位
of
44
3
5.1 R语言简介
《大数据》配套PPT课件
基于S语言的一个GNU项目,语法来自Scheme语言,
R语言的源代码正式发布到自由软件协会的FTP上
核心开发团队达到20人,来自牛津大学、ATT实验室等等。
不单是一门语言,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型
S语言
2013年
of
44
4
5.1.1R语言产生与发展历程
5.1 R语言简介
《大数据》配套PPT课件
5.1.2 R语言基本功能介绍
数据存储和处理系统
数组运算工具,(其向量、矩阵运算方面功能尤其强大)
完整连贯的统计分析工具
优秀的统计制图功能
R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能
of
44
5
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据读取和存储能力
可以保存和加载R语言的数据,与R.data的交互是通过R语言的save( )函数和load()函数实现的
能够加载和导出.csv文件(write.csv()函数和read.csv()函数)
能够导入SPSS/SAS/Matlab等数据集
可以通过RODBC接口,从数据库中导入数据
可以通过odbcConnectExcel接口从Excel表格中导入数据
R语言
读取
存储
of
44
6
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据处理功能
数据挖掘中,需要花70%以上的时间在数据处理上,R语言提供丰富的数据处理功能
筛选
filter() 按给定的逻辑判断筛选出符合要求的子数据集
排列
arrange() 按给定的列名依次对行进行排序
选择
select() 用列名作参数来选择子数据集
变形
mutate()或transformation()用来进行列变形
汇总
summarise()进行汇总操作,返回一维结果
分组
分组动作 group_by()
of
44
7
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据处理能力
向量
因子
数组
矩阵
列表
R语言处理数据的最基本单位是向量,而不是原子数据
R语言定义了一类非常特殊的数据类型:因子
数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的
较复杂的继承关系,和数组的关系既是父亲又是儿子,还是孙子
列表由向量直接派生而来
数据框
可以将几个不同类型但长度相同的向量合并到一个数据框
特殊值数据
定义了如NULL、NA、NaN、inf等特殊数据
有用函数
提供了获取数据类型信息的一些有用函数
of
44
8
5.1 R语言简介
《大数据》配套PPT课件
统计分析
应用数学
计量经济
金融分析
财经分析
生物信息学
数据可视化
数据挖掘
人工智能
R语言
应用领域
of
44
9
5.1.3 R语言常见的应用领域
习题
of
44
10
5.2 R与数据挖掘
《大数据》配套PPT课件
数据挖掘
数据挖掘(Data Mining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉;
主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。
R语言与数据挖掘有关的任务视图
MachineLearning:主要涉及机器学习和统计学习功能
Cluster:主要涉及聚类分析和有限混合模型
TimeSeries:主要涉及时间序列分析
Multivariate:主要用于多元统计分析及其算法
Spatial:主要用于空间数据分析
R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具
of
44
11
5.2 R与数据挖掘
《大数据》配套PPT课件
分类与预测算法
of
44
12
5.2.1 R软件包与常见的数据挖掘算法介绍
5.2 R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—K-近邻算法
of
44
13
如果一个样本与特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
library(kknn)
data(iris)
m - dim(iris)[1]
val - sample(1:m, size =round(m/3), replace = FALSE,
+prob= rep(1/m, m))
iris.learn - iris[-val,]
ir
您可能关注的文档
最近下载
- 合作协议书(15篇)(模板) .pdf VIP
- 《电动汽车充电站设计规范》GB50966-2014(完整).docx VIP
- 网御星云网闸技术宝典.pdf VIP
- 江淮CPC(D)20-30-CPC(D)30A叉车零件图册.pdf VIP
- DB32T 3610.2-2025 道路运输车辆智能监控系统技术规范 第2部分:终端及测试方法.docx VIP
- 驾驶员的夜间行车视觉与夜间驾驶技巧.pptx VIP
- 中医临床三基(医师)临床基本知识针灸推拿考试真题.docx VIP
- GB50156-2012(2014年版) 汽车加油加气站设计与施工规范.pdf VIP
- 临近既有地铁的异形深基坑支护设计与施工.pdf VIP
- 《葡萄沟》精品课件.pptx VIP
文档评论(0)