正则表达式匹配.docVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正则表达式匹配 正则表达式匹配2010-12-09 21:21正则表达式匹配也可以简单快速(下:实现部分) 技术专题2009-10-04 00:29:16阅读706 实现 Thompson在1968年的论文里对多状态模拟策略进行了介绍。在他的文章里,NFA的状态是使用机器码序列来表示的,可能状态列表仅仅是一系列的函数调用指令。实际上,Thompson将正则表达式编译成了机器码。四十年后,计算机已经变得很快了,所以机器码的这种方法变得不太必要了。下面的章节里介绍一种使用标准c的实现。完整的源代码(少于400行)和测试脚本在这里(。 实现:编译成NFA 第一步就是把正则表达式编译成等价的NFA。在我们的c程序里,我们使用一个带指针的结构体来表示NFA。 struct Stateint c;State*out;State*out1;int lastlist;};每个状态可以用来代表下面的三个NFA片段,取决于c的值(lastlist是执行时使用的,下面还会解释)根据Thomspon的论文,编译器从一个正则表达式的前缀形式开始构建NFA,对于连接通过增加一个.来将该运算以运算符的形式显示化。通过一个独立函数re2post将中缀正则表达式比如a(bb)+a转换成后缀表达式abb.+.a.。(一个实际的实现并不需要用.来代替连接字符。一个实际的实现也可能解析的同时构建NFA而不是构建一个显示的后缀表达式。然而,后缀版本更加方便也更接近Thompson的论文)当编译器扫描后缀表达式的时候,它用过一个栈来维护一个已经计算好的NFA片段。Literals push new NFA fragments onto the stack,while operators pop fragments off the stack and then push anew fragment.比如,编译好abb.+.a.中的abb之后,栈里包含a,b和b的NFA片段。然后编译.,这时需要将两个b的NFA片段从栈里pop出来,然后将bb.的NFA片段压入栈。每个NFA片段是由开始状态和输出指针组成的: struct FragState*start;Ptrlist*out;}; 对于片段来说,start是开始节点,out是一系列指向未链接到任何东西的状态指针的列表的指针。NFA片段里存在一些悬空指针。 下面这些辅助函数可以帮助控制指针链表: Ptrlist*list1(State*outp);Ptrlist*append(Ptrlist*l1,Ptrlist*l2); void patch(Ptrlist*l,State*s); list1创建一个新指针列表包括outp指针的。append将两个指针列表连接起来,并返回结果。patch将list1中的悬空指针连接使它们指向状态s:对于l里的每个指针outp,它设置*outp=s。 给定上面这些基础内容及片段栈,编译过程实际上是一个在后缀表达式串上的简单循环。处理到最后只剩下一个单片段:添加一个匹配状态就完成了NFA的构建。 State*post2nfa(char*postfix)char*p;Frag stack[1000],*stackp,e1,e2,e;State*s; #define push(s)*stackp++=s#define pop()*--stackp stackp=stack;for(p=postfix;*p;p++){switch(*p){/*compilation cases,described below*/e=pop();patch(e.out,matchstate);return e.start; 下面这些具体的编译实例,模拟了上面所描述的那些转换步骤。 文本字符:default:s=state(*p,NULL,NULL);push(frag(s,list1(s-out));break;连接:case.:e2=pop();e1=pop();patch(e1.out,e2.start);push(frag(e1.start,e2.out));break;选择:case|:e2=pop();e1=pop();s=state(Split,e1.start,e2.start);push(frag(s,append(e1.out,e2.out)));break;Zero or one: case?:e=pop();s=state(Split,e.start,NULL);push(frag(s,append(e.out,list1(s-out1))));break;Zero or more: case*:e=pop();s=state(Split,e.start,NULL);patch(e.out,s)

文档评论(0)

189****6649 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档