- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2讲-方匡南的个人网站
R 语言数据挖掘培训 方匡南
第2 讲
1. 数据读写与预处理
数据读入软件或者从软件里写出来是学习软件和数据分析的重要环节,另
外,在数据分析前往往需要对数据的变量进行变换或者缺失值的处理等。本章主
要介绍R 里如何进行数据读写以及预处理。
5.1 数据的读入
R 的数据读入灵活方便,可以在R 软件中直接输入,也可以读入外部文件。
对于大数据量来说,一般需要从外部读入数据,外部的数据源很多,可以是网络、
电子表格、数据库、文本文件、论文等形式,所以录入数据的方法也就很多。关
于R 的导入导出,可以阅读“R Data Import/Export”,下面我们介绍一下R 读入各
种数据的不同方法,各种方法都有自己的优势,至于哪种方法最好是要根据实际
的数据情况来决定。
5.1.1 直接输入数据
(1). c()函数
c 函数是把各个值联成一个向量或列表,可以形成数值型向量、字符型向量
或其它类型向量,它的使用非常简单。该函数我们在前面已多次使用,例如:
x=c(1,2,3,4)
x
[1] 1 2 3 4
y=c(a,b,c)
y
[1] a b c
(2). scan()函数
scan 函数功能类似于c 函数,scan 实际上是一种键盘输入数据函数。当你输
入scan (),然后按回车键,这时将等待你输入数据,数据之间只要空格分开即
可(c 函数要用逗号分开)。输入完数据,再按回车键,这时数据录入完毕。例
如:
x = scan()
1: 1 2 3 4 5 6
7:
R 语言数据挖掘培训 方匡南
Read 6 items
scan 函数还可以读入外部文本文件。假如你现在有一个文本文件,dat.txt,读入
这个文件的命令是:
x=scan(file=dat.txt)
假如原文件的数据之间有逗号等分隔符,用scan 读入应该去掉这些分隔符,
其命令是:
x=scan(file=dat.txt,sep=,)
5.1.2 读R 包中的数据
在RStudio 中,虽然可以直接查看,读取和修改数据,但还有一些操作还是
需要使用命令来运行,例如查看当前环境下的数据ls(),删除数据rm() ,查看所
有预先提供的数据data(),查看某个包所有预先提供的数据data(package=””),读
入数据data(datasetname) 。
如果需要从其他的软件包链接数据,可以使用参数package ,例如我要查看SemiPar 包
里有哪些自带的数据,可以用以下代码来查看:
data(package=SemiPar)
如果需要读入SemiPar 包里copper 数据,可以输入以下代码:
data(copper,package=”SemiPar”)
如果一个软件包已被library 附加在库中,则这个数据库将自动地被包含在其中,如
library(SemiPar)
data()
data(fossil)
5.1.3 从外部文件读入数据
(1). 读入文本文件
大的数据对象常常是从外部文件读入,而不是在 R 中直接键入的。读入文
本文件数据的命令是
read.table(file,header=logical_value,sep=”delimiter”,row.names=”name”)
file 是一个带分隔符的ASCII 文本文件,header 是一个表明首行是否包含了
变量名,sep 用来指定分隔符。
但它对外部文件常常有特定的格式要求:第一行可以有该数据框的各变量
名,随后的行中第一个条目是行标签,其它条目是各个变量的值。在文件中,第
一行比第二行少一个条目,这样做是被强制要求的,因此一个被看作数据框读入
的文件格式应是这样的。例如将图5-1 中的学生数据存在student.txt 文本文件中,
默认情况下,数值项(除了行标签)以数值变量的形式读入,对应非数值变量则
以因子形式读入,如sex 变量。
s1=read.table(student.txt)
s1
V1 V2 V3
您可能关注的文档
最近下载
- 理想 RISO 9050 7050 3050 7010 3010 闪彩印王中文技术维修手册 后面可以参考理想闪彩印王 EX7200 EX9050 EX9000 EX7250 系列中文维修手册 .pdf VIP
- 表面波波速测试.ppt VIP
- 食品安全法全文.docx VIP
- 监狱日用品供应站项目 投标方案(技术方案).docx
- 2025年池州市住房和城乡建设系统架子工职业技能竞赛暨省级劳动和职业技能竞赛(架子工)选拔赛理论知识题库及答案(360题).docx VIP
- 人保理赔员车险查勘定损考试题库(答案).pdf VIP
- 普外科案例分析病例分析题与答案.docx VIP
- 外研九年级英语上册Module-4-Unit1-课件(共29张PPT).ppt VIP
- 随机事件的概率.docx
- 《教育心理学》课件——第七章 学习策略.pptx VIP
文档评论(0)