R语言统计、绘图与编程.ppt

下载文档 降价啦

45
0
约4.13千字
约 235页
2018-01-31 发布于广东
举报
版权申诉
保障服务

R语言统计、绘图与编程.ppt

1、本文档共235页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * 第11章 R语言中统计 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 第9章函数 * * * * * * * * * * * * * * * 第10章包 * * * * * 第7章导入与导出数据 * * * 函数?read.table?是读取矩形格子状数据最为便利的方式。因为实际可能遇到的情况比较多，所以预设了一些函数。这些函数调用了?read.table?但改变了它的一些默认参数。注意，read.table?不是一种有效地读大数值矩阵的方法：见下面的?scan?函数。 * 一些需要考虑到问题是：编码问题如果文件中包含非-ASCII字符字段，要确保以正确的编码方式读取。这是在UTF-8的本地系统里面读取Latin-1文件的一个主要问题。此时，可以如下处理 read.table(file(file.dat, encoding=latin1)) 注意，这在任何可以呈现Latin-1名字的本地系统里面运行。 * 首行问题建议明确地设定?header?参数。按照惯例，首行只有对应列的字段而没有行标签对应的字段。因此，它会比余下的行少一个字段。（如果需要在 R 里面看到这一行，设置header = TRUE。）如果要读取的文件里面有行标签的头字段（可能是空的），以下面的方式读取 read.table(file.dat, header = TRUE, s = 1) 列名字可以通过?s?显式地设定；显式设定的名字会替换首行里面的列名字（如果存在的话）。 * 分隔符问题通常，打开文件看一下就可以确定文件所使用的字段分隔符，但对于空白分割的文件，可以选择默认的sep = ?（它能使用任何空白符作为分隔符，比如空格，制表符，换行符），sep = ?或者?sep = \t。注意，分隔符的选择会影响输入的被引用的字符串。如果有含有空字段的制表符分割的文件，一定要使用： ?sep = \t。 * 引用? 默认情况下，字符串可以被??或??括起，并且两种情况下，引号内部的字符都作为字符串的一部分。有效的引用字符（可能没有）的设置由参数?quote?控制。对于sep = \n，默认值改为?quote = 。如果没有设定分隔字符，在被引号括起的字符串里面，引号需要用 C格式的逃逸方式逃逸，即在引号前面直接加反斜杠?\。 * 如果设定了分隔符，在被引号括起的字符串里面，按照电子表格的习惯，把引号重复两次以达到逃逸的效果。例如 One string isnt two,one more 可以被下面的命令读取 read.table(testfile, sep = ,) 这在默认分隔符的文件里面不起作用。 * 缺损值? 默认情况下，文件是假定用?NA?表示缺损值，但是，这可以通过参数?na.strings?改变。参数?na.strings?是一个可以包括一个或多个缺损值得字符描述方式的向量。数值列的空字段也被看作是缺损值。在数值列，值?NaN，Inf?和?-Inf?都可以被接受的。 * 尾部空字段省略的行从一个电子表格中导出的文件通常会把拖尾的空字段（为了读取这样的文件，必须设置参数?fill = TRUE。字符字段中的空白如果设定了分隔符，字符字段起始和收尾处的空白会作为字段一部分看待的。为了去掉这些空白，可以使用参数?strip.white = TRUE。空白行默认情况下，read.table?忽略空白行。这可以通过设置?blank.lines.skip = FALSE?来改变。但这个参数只有在和?fill = TRUE?共同使用时才有效。这时，可能是用空白行表明规则数据中的缺损样本。 * 变量的类型 read.table?将会为数据框的每个变量选择一个合适的类型。如果字段没有缺损以及不能直接转换，它会按?logical ，?integer，?numeric?和?complex?的顺序依次判断字段类型。如果所有这些类型都失败了，变量会转变成因子。参数 colClasses 和 as.is 提供了很大的控制权。 as.is 会抑制字符向量转换成因子（仅仅这个功能）。 colClasses运行为输入中的每个列设置需要的类型。注意，colClasses 和 as.is 对每列专用，而不是每个变量。因此，它对行标签列也同样适用（如果有的话）。 * 注释默认情况下，read.table?用?#?作为注释标识字符。如果碰到该字符（除了在被