- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正则表达式匹配
正则表达式匹配2010-12-09 21:21正则表达式匹配也可以简单快速(下:实现部分)
技术专题2009-10-04 00:29:16阅读706
实现
Thompson在1968年的论文里对多状态模拟策略进行了介绍。在他的文章里,NFA的状态是使用机器码序列来表示的,可能状态列表仅仅是一系列的函数调用指令。实际上,Thompson将正则表达式编译成了机器码。四十年后,计算机已经变得很快了,所以机器码的这种方法变得不太必要了。下面的章节里介绍一种使用标准c的实现。完整的源代码(少于400行)和测试脚本在这里(。
实现:编译成NFA
第一步就是把正则表达式编译成等价的NFA。在我们的c程序里,我们使用一个带指针的结构体来表示NFA。
struct Stateint c;State*out;State*out1;int lastlist;};每个状态可以用来代表下面的三个NFA片段,取决于c的值(lastlist是执行时使用的,下面还会解释)根据Thomspon的论文,编译器从一个正则表达式的前缀形式开始构建NFA,对于连接通过增加一个.来将该运算以运算符的形式显示化。通过一个独立函数re2post将中缀正则表达式比如a(bb)+a转换成后缀表达式abb.+.a.。(一个实际的实现并不需要用.来代替连接字符。一个实际的实现也可能解析的同时构建NFA而不是构建一个显示的后缀表达式。然而,后缀版本更加方便也更接近Thompson的论文)当编译器扫描后缀表达式的时候,它用过一个栈来维护一个已经计算好的NFA片段。Literals push new NFA fragments onto the stack,while operators pop fragments off the stack and then push anew fragment.比如,编译好abb.+.a.中的abb之后,栈里包含a,b和b的NFA片段。然后编译.,这时需要将两个b的NFA片段从栈里pop出来,然后将bb.的NFA片段压入栈。每个NFA片段是由开始状态和输出指针组成的:
struct FragState*start;Ptrlist*out;};
对于片段来说,start是开始节点,out是一系列指向未链接到任何东西的状态指针的列表的指针。NFA片段里存在一些悬空指针。
下面这些辅助函数可以帮助控制指针链表:
Ptrlist*list1(State*outp);Ptrlist*append(Ptrlist*l1,Ptrlist*l2);
void patch(Ptrlist*l,State*s);
list1创建一个新指针列表包括outp指针的。append将两个指针列表连接起来,并返回结果。patch将list1中的悬空指针连接使它们指向状态s:对于l里的每个指针outp,它设置*outp=s。
给定上面这些基础内容及片段栈,编译过程实际上是一个在后缀表达式串上的简单循环。处理到最后只剩下一个单片段:添加一个匹配状态就完成了NFA的构建。
State*post2nfa(char*postfix)char*p;Frag stack[1000],*stackp,e1,e2,e;State*s;
#define push(s)*stackp++=s#define pop()*--stackp stackp=stack;for(p=postfix;*p;p++){switch(*p){/*compilation cases,described below*/e=pop();patch(e.out,matchstate);return e.start;
下面这些具体的编译实例,模拟了上面所描述的那些转换步骤。
文本字符:default:s=state(*p,NULL,NULL);push(frag(s,list1(s-out));break;连接:case.:e2=pop();e1=pop();patch(e1.out,e2.start);push(frag(e1.start,e2.out));break;选择:case|:e2=pop();e1=pop();s=state(Split,e1.start,e2.start);push(frag(s,append(e1.out,e2.out)));break;Zero or one:
case?:e=pop();s=state(Split,e.start,NULL);push(frag(s,append(e.out,list1(s-out1))));break;Zero or more:
case*:e=pop();s=state(Split,e.start,NULL);patch(e.out,s)
您可能关注的文档
- 做人阳光才充满希望.doc
- 最新人教版高中生物高三上学期检测试题.doc
- 最新人教版高中生物必修一《细胞的成分和结构》专题检测.doc
- 最新人教版高中生物必修三第三章《植物的激素调节》学案.doc
- 最新人教版高中生物必修二第二章一节《减数分裂和受精作用》教学设计.doc
- 最新计算机系统结构考试资料.doc
- 最新婚礼主持词婚庆主持词.doc
- 最新婚礼主持词 精品.doc
- 最大熵产生原理系列论文的读书笔记 转.doc
- 组态王的n个经典问题解答.doc
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
最近下载
- 云南西部沿边高校边境缅甸语人才培养的校政企合作模式探索.docx VIP
- 《固定式钢梯及平台安全要求 第2部分:钢斜梯》GB 4053.2-2009.docx VIP
- 幼小科学衔接视角下家校社协同共育现状及对策研究.pdf VIP
- 2025中国中信金融资产管理股份有限公司甘肃分公司招聘笔试备考题库及答案解析.docx VIP
- 旅游警务服务规范.pdf
- 2025凉山州继续教育公需科目满分答案-深入学xi关于发展新生产力的重要论述.docx VIP
- 第三章 教育目的.ppt VIP
- 乳腺癌脑转移瘤护理查房.pptx VIP
- 眼科专科护理操作风险防范.pptx VIP
- 真菌镜检报告.pptx VIP
文档评论(0)