1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R数据分析创新

数据分析与R语言 数据挖掘 数据挖掘是以查找隐藏在数据中的信息为目的的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关系,并且向用户显示这些关联。 数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习。 常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等 例:啤酒与尿布的故事。 例:《Science》的文章《科学家摸索出大型数据集内的趋势》 展现层:报表与图形 老土的报表 展现层 常见的报表 展现层 一些有趣的图表 展现层 某条微博的扩散路径 展现层 Mr Android 根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑,71%的时间会穿T恤,62%的人喜欢穿牛仔裤,工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。 展现层 Mr Android 展现层 网站点击“热力图” R R的起源 R是S语言的一种实现。S语言是由ATT贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的RobertGentleman和Ross Ihaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。 R R的特点 有效的数据处理和保存机制。 拥有一整套数组和矩阵的操作运算符。 一系列连贯而又完整的数据分析中间工具。 图形统计可以对数据直接进行分析和显示,可用于多种图形设备。 一种相当完善、简洁和高效的程序设计语言。它包括条件语句、循环语句、用户自定义的递归函数以及输入输出接口。 R语言是彻底面向对象的统计编程语言。 R语言和其他编程语言、数据库之间有很好的接口。 R语言是自由软件,可以放心地使用,但其功能却不比任何其它同类软件差。 R语言具有丰富的网上资源。 R 商业版本的R Revolution R (官网:/) 很多大型厂商也在开始推出自己的R或兼容R的产品,例如Oracle、IBM、Sybase 创建向量和矩阵 函数c( ), length( ), mode( ), rbind( ), cbind( ) x1=c(2,4,6,8,0) x2=c(1,3,5,7,9) length(x1) mode(x1) x1 x1[3] al=c(1:100) length(al) rbind(x1,x2) cbind(x1,x2) m1=rbind(x1,x2) m1 语句: 结果: 求平均值,和,连乘,最值,方差,标准差 函数mean( ), sum( ), min( ), max( ), var( ), sd( ), prod( ) x=c(1:100) mean(x) sum(x) max(x) min(x) var(X) var(x) prod(x) sd(x) 语句: 结果: 注:R语言是区分大小写的。 寻求帮助 函数help( ) help(prod) 产生向量 1:10 1:10-1 1:10*2 2:60*2-1 a=2:60*2+1 a a[5] a[-5] 语句: 结果: 产生向量 a[1:5] a[-(1:5)] a[1,2,3] a[c(1,2,3)] a[3:8] a[a20] a[a30 a50] a[a(3)] 语句: 结果: 生成矩阵 a1=c(1:12) matrix(a1,nrow=3,ncol=4) matrix(a1,nrow=4,ncol=3) matrix(a1,nrow=3,ncol=4,byrow=T) 语句: 结果: 函数matrix( ) 数据的R语言表示-数据框 x1=c(10,13,45,26,23,12,24,78,23,43,31,56) x2=c(20,65,32,32,27,87,60,13,42,51,77,35) x=data.frame(x1,x2) x 语句: 结果: 矩阵形式,但列可以不同数据类型 每列是一个变量,每行是一个观测值 散点点图 plot(x) 语句: 结果: 函数plot( ) 综合性例子 模拟产生统计专业同学的名单(学号区分),记录数学分析,线性代数,概率统计三科成绩,然后进行一些统计分析 语句: 结果: num=seq10378100) num 模拟成绩 用runif和rnorm 语句: 结果: x1=round(runif(100,min=80,max=100)) x2=round(rnorm(100,mean=80,sd=7)) 注:round是四舍五入函数。Runif是均

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档