- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章R基础.ppt
列表元素可用”列表名[[下标]]”引用 peoplelist[[2]] peoplelist[[“age”]] peoplelist[[3]][2] 但列表不同于向量,每次只能引用一个元素,如 peoplelist[[1:2]] 是不允许的 对象和类 有一个非常有用的函数str()能用以了解一个对象的底细。 str(people) 数据导入 小规模文本文件数据导入:read.table,read.csv 大规模数据导入:readr包,data.table包 数据库数据导入:RODBC包,RMySQL包 其他统计软件数据导入:foreign包 网络数据读取:XML包 数据导出 数据导出为文本文件数据 数据导出到MySQL数据库 缺失值 真实的数据分析工作中会经常遇到数据缺失情况,缺失的数据在R中一般表示为NA。当一个数据中包含了NA时,很多函数的行为会不一样,甚至会产生错误。 temp - c(27, 29, 23, 14,NA) mean(temp) mean(temp,na.rm=T) is.na(temp) 二、数据输入 使用键盘输入数据 首先创建一个空数据框(或矩阵) 用函数edit()或fix()调出上步建立的空数据框,就可以录入数据。 从外部文件读入数据 读入文本格式文件 read.table(file,header=F,sep=“”,….. ) read.csv(file,header=T,sep=“,”,….. ) 小规模文件数据导入 大规模数据导入 readr包是Hadley Wickham 和 RStudio团队共同开发的R包,它可以快速的读入大规模的数据。下面对?readr包中read_table函数和R内置read.table函数的读取时间进行对比。 关于readr包更深一点的介绍可以参考我们网站的一篇文章将数据快速读入R—readr和readxl包 大规模数据导入 install.packages(readr) library(readr) system.time(read_table(“biggerfile.txt”)) #读取数据文件biggerfile.txt system.time(read.table(“biggerfile.txt”)) #读取数据文件biggerfile.txt 读入excel数据 方法: 1.读取一个excel文件的最好方式,就是在excel中将其导出为一个逗号分隔文件(csv),并使用导入文本文件方式将其导入R中; 2. 也可以使用RODBC包来访问excel文件 install.pachages(“RODBC”) #下载RODBC包 library(RODBC) #加载RODBC包 rt=odbcConnectExcel(“路径/文件名”)#创建rt为连接对象 mydata=sqlFetch(rt,“工作表名”) odbcClose(rt) #关闭此连接对象 install.pachages(“xlsx”) #下载xlsx包 library(xlsx) #加载xlsx包 mydata=read.xlsx(“路径/文件名”,n)#n为第n个工作表 Excel2007版:可以用xlsx包读取这种格式的电子表格 读入spss数据 方案1,通过foreign包中的函数read.spss()导入到R中 library(foreign) mydata=read.spss(“路径/文件名”,to.data.frame=T) 方案2,通过Hmisc包中的函数spss.get()导入到R中 install.packages(“Hmisc”) library(Hmisc) mydata=spss.get(“路径/文件名”,use.value.labels=T) 网络数据读取 一、结构化的网页数据抓取,我们可以使用XML包中的readHTMLTable()函数来抓取网页上的表格数据。以艺恩电影营销智库网站的2015年度中国内地电影总票房数据为例 。 可扩展标记语言(Extensible Markup Language,XML)用于标记电子文件,使其成为结构的标记语言,可以用来标记数据,定义数据类型。它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据 在实际的数据分析中,最常见的XML语言就是网页数据,我们常从网页获得表格数据,如股票等数据。 参数名 含义 doc HTML文件或URL(网页地址) header 若为逻辑值,表示是否包含列标签;若为字符向量,则为列名称赋值 colClasses 一个列表或向量,指定表中的各列数据的类型 trim 逻辑值,表示是否要删
文档评论(0)