正则表达式和字符串处理.docxVIP

下载本文档

1
0
约1.08万字
约 8页
2017-12-19 发布于河南
举报
版权申诉

正则表达式和字符串处理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

正则表达式和字符串处理

处理文本是每一种计算机语言都应该具备的功能，但不是每一种语言都侧重于处理文本。R语言是统计的语言，处理文本不是它的强项，perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强，DNA/RNA/AA等生物序列现在已经可以使用R来处理。R语言处理文本的能力虽然不强，但适当用用还是可以大幅提高工作效率的，而且有些文本操作还不得不用。高效处理文本少不了正则表达式（regular expression），虽然R在这方面先天不足，但它处理字符串的绝大多数函数还都使用正则表达式。Table of Contents/blog/static/21601509520133492033667/1 正则表达式简介/blog/static/21601509520133492033667/2 字符数统计和字符翻译/blog/static/21601509520133492033667/2.1 nchar和length/blog/static/21601509520133492033667/2.2 tolower，toupper和chartr/blog/static/21601509520133492033667/3 字符串连接/blog/static/21601509520133492033667/3.1 paste函数/blog/static/21601509520133492033667/4 字符串拆分/blog/static/21601509520133492033667/4.1 strsplit函数/blog/static/21601509520133492033667/5 字符串查询：/blog/static/21601509520133492033667/5.1 grep和grepl函数：/blog/static/21601509520133492033667/5.2 regexpr、gregexpr和regexec/blog/static/21601509520133492033667/6 字符串替换/blog/static/21601509520133492033667/6.1 sub和gsub函数/blog/static/21601509520133492033667/7 字符串提取/blog/static/21601509520133492033667/7.1 substr和substring函数/blog/static/21601509520133492033667/8 其他：/blog/static/21601509520133492033667/8.1 strtrim函数/blog/static/21601509520133492033667/8.2 strwrap函数/blog/static/21601509520133492033667/8.3 match和charmatch1?正则表达式简介正则表达式不是R的专属内容，这里只做简单介绍，更详细的内容请查阅其他文章。正则表达式是用于描述/匹配一个文本集合的表达式：所有英文字母、数字和很多可显示的字符本身就是正则表达式，用于匹配它们自己。比如 “a” 就是匹配字母 “a” 的正则表达式一些特殊的字符在正则表达式中不在用来描述它自身，它们在正则表达式中已经被“转义”，这些字符称为“元字符”。perl类型的正则表达式中被转义的字符有：. \ | ( ) [ ] { } ^ $ * + ?。被转义的字符已经有特殊的意义，如点号 . 表示任意字符；方括号表示选择方括号中的任意一个（如[a-z] 表示任意一个小写字符）；^ 放在表达式开始出表示匹配文本开始位置，放在方括号内开始处表示非方括号内的任一字符；大括号表示前面的字符或表达式的重复次数；| 表示可选项，即 | 前后的表达式任选一个。如果要在正则表达式中表示元字符本身，比如我就要在文本中查找问号“?”，那么就要使用引用符号（或称换码符号），一般是反斜杠 “\”。需要注意的是，在R语言中得用两个反斜杠即 “\\”，如要匹配括号就要写成 “\$\$”不同语言或应用程序（事实上很多规则都通用）定义了一些特殊的元字符用于表示某类字符，如 \d 表示数字0-9， \D 表示非数字，\s 表示空白字符（包括空格、制表符、换行符等），\S 表示非空白字符，\w 表示字（字母和数字），\W 表示非字，\ 和 \ 分别表示以空白字符开始和结束的文本。正则表达式符号运算顺序：圆括号括起来的表达式最优先，然后是表示重复次数的操作（即：* + {} ），接下来是连接运算（其实就是几个字符放在一起，如abc），最后是表示可选项的运算（|）。所以 “foot|bar” 可以匹配“foot”或者“bar”，但是“foot|ba{2}r