R语言统计、绘图与编程.ppt

  1. 1、本文档共235页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * 第11章 R语言中统计 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 第9章 函数 * * * * * * * * * * * * * * * 第10章 包 * * * * * 第7章 导入与导出数据 * * * 函数?read.table?是读取矩形格子状数据最为便利的方式。因 为实际可能遇到的情况比较多,所以预设了一些函数。这些 函数调用了?read.table?但改变了它的一些默认参数。 注意,read.table?不是一种有效地读大数值矩阵的方法:见 下面的?scan?函数。 * 一些需要考虑到问题是: 编码问题 如果文件中包含非-ASCII字符字段,要确保以正确的编码方 式读取。这是在UTF-8的本地系统里面读取Latin-1文件的一 个主要问题。此时,可以如下处理 read.table(file(file.dat, encoding=latin1)) 注意,这在任何可以呈现Latin-1名字的本地系统里面运行。 * 首行问题 建议明确地设定?header?参数。按照惯例,首行只有对应列 的字段而没有行标签对应的字段。因此,它会比余下的行少 一个字段。(如果需要在 R 里面看到这一行,设置header = TRUE。)如果要读取的文件里面有行标签的头字段(可能 是空的),以下面的方式读取 read.table(file.dat, header = TRUE, s = 1) 列名字可以通过?s?显式地设定;显式设定的名字会 替换首行里面的列名字(如果存在的话)。 * 分隔符问题 通常,打开文件看一下就可以确定文件所使用的字段分隔符 ,但对于空白分割的文件,可以选择默认的sep = ?(它能 使用任何空白符作为分隔符,比如空格,制表符,换行符) ,sep = ?或者?sep = \t。注意,分隔符的选择会影响输入 的被引用的字符串。 如果有含有空字段的制表符分割的文件,一定要使用: ?sep = \t。 * 引用? 默认情况下,字符串可以被??或??括起,并且两种情况 下,引号内部的字符都作为字符串的一部分。有效的引用字 符(可能没有)的设置由参数?quote?控制。对于sep = \n, 默认值改为?quote = 。 如果没有设定分隔字符,在被引号括起的字符串里面,引号 需要用 C格式的逃逸方式逃逸,即在引号前面直接加反斜 杠?\。 * 如果设定了分隔符,在被引号括起的字符串里面,按照电子 表格的习惯,把引号重复两次以达到逃逸的效果。例如 One string isnt two,one more 可以被下面的命令读取 read.table(testfile, sep = ,) 这在默认分隔符的文件里面不起作用。 * 缺损值? 默认情况下,文件是假定用?NA?表示缺损值,但是,这可以 通过参数?na.strings?改变。参数?na.strings?是一个可以包括 一个或多个缺损值得字符描述方式的向量。 数值列的空字段也被看作是缺损值。 在数值列,值?NaN,Inf?和?-Inf?都可以被接受的。 * 尾部空字段省略的行 从一个电子表格中导出的文件通常会把拖尾的空字段(为了 读取这样的文件,必须设置参数?fill = TRUE。 字符字段中的空白 如果设定了分隔符,字符字段起始和收尾处的空白会作为字 段一部分看待的。为了去掉这些空白,可以使用参 数?strip.white = TRUE。 空白行 默认情况下,read.table?忽略空白行。这可以通过设 置?blank.lines.skip = FALSE?来改变。但这个参数只有在 和?fill = TRUE?共同使用时才有效。这时,可能是用空白行表 明规则数据中的缺损样本。 * 变量的类型 read.table?将会为数据框的每个变量选择一个合适的类型。 如果字段没有缺损以及不能直接转换,它会按?logical ,?integer,?numeric?和?complex?的顺序依次判断字段类型 。如果所有这些类型都失败了,变量会转变成因子。 参数 colClasses 和 as.is 提供了很大的控制权。 as.is 会 抑 制字符向量转换成因子(仅仅这个功能)。 colClasses运行 为输入中的每个列设置需要的类型。 注意,colClasses 和 as.is 对每 列专用,而不是每个变量。 因此,它对行标签列也同样适用(如果有的话)。 * 注释 默认情况下,read.table?用?#?作为注释标识字符。如果碰到 该字符(除了在被

文档评论(0)

精品文库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档