05.《大数据》配套PPT之六:第5章 R语言.pptxVIP

05.《大数据》配套PPT之六:第5章 R语言.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
05.《大数据》配套PPT之六:第5章 R语言

大数据BIG DATA全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用第五章 R语言5.1 R语言简介5.2 R与数据挖掘5.3 SparkR习题of445.1 R语言简介《大数据》配套PPT课件十大热门编程语言第七位数据挖掘机器学习自然语言处理等用于统计计算和作图的语言R语言计量经济学实证金融学统计遗传学等免费、开源及统计模块齐全of445.1 R语言简介《大数据》配套PPT课件5.1.1R语言产生与发展历程S语言2013年1995年基于S语言的一个GNU项目,语法来自Scheme语言,R语言的源代码正式发布到自由软件协会的FTP上核心开发团队达到20人,来自牛津大学、ATT实验室等等。不单是一门语言,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型of445.1 R语言简介《大数据》配套PPT课件5.1.2 R语言基本功能介绍R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能数据存储和处理系统数组运算工具,(其向量、矩阵运算方面功能尤其强大)完整连贯的统计分析工具优秀的统计制图功能of445.1 R语言简介《大数据》配套PPT课件丰富的数据读取和存储能力R语言读取存储可以保存和加载R语言的数据,与R.data的交互是通过R语言的save( )函数和load()函数实现的能够加载和导出.csv文件(write.csv()函数和read.csv()函数)能够导入SPSS/SAS/Matlab等数据集可以通过RODBC接口,从数据库中导入数据可以通过odbcConnectExcel接口从Excel表格中导入数据of445.1 R语言简介《大数据》配套PPT课件丰富的数据处理功能数据挖掘中,需要花70%以上的时间在数据处理上,R语言提供丰富的数据处理功能筛选filter() 按给定的逻辑判断筛选出符合要求的子数据集arrange() 按给定的列名依次对行进行排序排列选择select() 用列名作参数来选择子数据集mutate()或transformation()用来进行列变形变形summarise()进行汇总操作,返回一维结果汇总分组动作 group_by()分组of445.1 R语言简介《大数据》配套PPT课件丰富的数据处理能力向量R语言处理数据的最基本单位是向量,而不是原子数据因子R语言定义了一类非常特殊的数据类型:因子数组数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的矩阵较复杂的继承关系,和数组的关系既是父亲又是儿子,还是孙子列表列表由向量直接派生而来数据框可以将几个不同类型但长度相同的向量合并到一个数据框特殊值数据定义了如NULL、NA、NaN、inf等特殊数据有用函数提供了获取数据类型信息的一些有用函数of445.1 R语言简介《大数据》配套PPT课件5.1.3 R语言常见的应用领域统计分析人工智能应用数学R语言应用领域计量经济数据挖掘金融分析数据可视化财经分析生物信息学of44全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用第五章 R语言5.1 R语言简介5.2 R与数据挖掘5.3 SparkR习题of445.2 R与数据挖掘《大数据》配套PPT课件数据挖掘数据挖掘(Data Mining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉;主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。R语言与数据挖掘有关的任务视图MachineLearning:主要涉及机器学习和统计学习功能Cluster:主要涉及聚类分析和有限混合模型TimeSeries:主要涉及时间序列分析Multivariate:主要用于多元统计分析及其算法Spatial:主要用于空间数据分析R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具of445.2 R与数据挖掘《大数据》配套PPT课件5.2.1 R软件包与常见的数据挖掘算法介绍分类与预测算法K-近邻算法决策树支持向量机分类与预测算法of445.2 R与数据挖掘《大数据》配套PPT课件5.2.1 R软件包与常见的数据挖掘算法介绍分类与预测算法—K-近邻算法如果一个样本与特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别 library(kknn)?? data(iris)?? m?-?dim(iris)[1]?? val?-?sample(1:m,?size?=round(m/3),?replace?=?FALSE,?? +prob=?rep(1/m,?m))?? iris.learn?-?iris[-val,]

文档评论(0)

ipbohn97 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档