- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NFA引擎匹配原理要点
NFA引擎匹配原理
1???????为什么要了解引擎匹配原理
一个个音符杂乱无章的组合在一起,弹奏出的或许就是噪音,同样的音符经过作曲家的手,就可以谱出非常动听的乐曲,一个演奏者同样可以照着乐谱奏出动听的乐曲,但他/她或许不知道该如何去改变音符的组合,使得乐曲更动听。
作为正则的使用者也一样,不懂正则引擎原理的情况下,同样可以写出满足需求的正则,但是不知道原理,却很难写出高效且没有隐患的正则。所以对于经常使用正则,或是有兴趣深入学习正则的人,还是有必要了解一下正则引擎的匹配原理的。
2???????正则表达式引擎
正则引擎大体上可分为不同的两类:DFA和NFA,而NFA又基本上可以分为传统型NFA和POSIX NFA。
DFA?Deterministic finite automaton?确定型有穷自动机
NFA Non-deterministic finite automaton 非确定型有穷自动机
Traditional NFA
POSIX NFA
DFA引擎因为不需要回溯,所以匹配快速,但不支持捕获组,所以也就不支持反向引用和$number这种引用方式,目前使用DFA引擎的语言和工具主要有awk、egrep?和?lex。
POSIX NFA主要指符合POSIX标准的NFA引擎,它的特点主要是提供longest-leftmost匹配,也就是在找到最左侧最长匹配之前,它将继续回溯。同DFA一样,非贪婪模式或者说忽略优先量词对于POSIX NFA同样是没有意义的。
大多数语言和工具使用的是传统型的NFA引擎,它有一些DFA不支持的特性:
捕获组、反向引用和$number引用方式;
环视(Lookaround,(?=…)、(?!…)、(?=…)、(?!…)),或者有的有文章叫做预搜索;
忽略优化量词(??、*?、+?、{m,n}?、{m,}?),或者有的文章叫做非贪婪模式;
占有优先量词(?+、*+、++、{m,n}+、{m,}+,目前仅Java和PCRE支持),固化分组(?…)。
引擎间的区别不是本文的重点,仅做简要的介绍,有兴趣的可参考相关文献。
3???????预备知识
3.1?????字符串组成
?
对于字符串“abc”而言,包括三个字符和四个位置。
3.2?????占有字符和零宽度
正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。
占有字符是互斥的,零宽度是非互斥的。也就是一个字符,同一时间只能由一个子表达式匹配,而一个位置,却可以同时由多个零宽度的子表达式匹配。
3.3?????控制权和传动
正则的匹配过程,通常情况下都是由一个子表达式(可能为一个普通字符、元字符或元字符序列组成)取得控制权,从字符串的某一位置开始尝试匹配,一个子表达式开始尝试匹配的位置,是从前一子表达匹配成功的结束位置开始的。如正则表达式:
(子表达式一)(子表达式二)
假设(子表达式一)为零宽度表达式,由于它匹配开始和结束的位置是同一个,如位置0,那么(子表达式二)是从位置0开始尝试匹配的。
假设(子表达式一)为占有字符的表达式,由于它匹配开始和结束的位置不是同一个,如匹配成功开始于位置0,结束于位置2,那么(子表达式二)是从位置2开始尝试匹配的。
而对于整个表达式来说,通常是由字符串位置0开始尝试匹配的。如果在位置0开始的尝试,匹配到字符串某一位置时整个表达式匹配失败,那么引擎会使正则向前传动,整个表达式从位置1开始重新尝试匹配,依此类推,直到报告匹配成功或尝试到最后一个位置后报告匹配失败。
4???????正则表达式简单匹本过程
4.1?????基础匹配过程
?
?
源字符串:abc
正则表达式:abc
匹配过程:
首先由字符“a”取得控制权,从位置0开始匹配,由“a”来匹配“a”,匹配成功,控制权交给字符“b”;由于“a”已被“a”匹配,所以“b”从位置1开始尝试匹配,由“b”来匹配“b”,匹配成功,控制权交给“c”;由“c”来匹配“c”,匹配成功。
此时正则表达式匹配完成,报告匹配成功。匹配结果为“abc”,开始位置为0,结束位置为3。
?
4.2?????含有匹配优先量词的匹配过程——匹配成功(一)
?
源字符串:abc
正则表达式:ab?c
量词“?”属于匹配优先量词,在可匹配可不匹配时,会先选择尝试匹配,只有这种选择会使整个表达式无法匹配成功时,才会尝试让出匹配到的内容。这里的量词“?”是用来修饰字符“b”的,所以“b?”是一个整体。
匹配过程:
首先由字符“a”取得控制权,从位置0开始匹配,由“a”来匹配“a”,匹配成功,控制权交给
您可能关注的文档
- 金集小学课外阅读作文集.doc
- 2013年工作报告(毫州).ppt
- MX272_方案介绍说明书_20140521.ppt
- 2013年江西招警人民警察基础知识真题答案.doc
- Multisim10教程.ppt
- MVA产品一次点灯站作业手法改善.ppt
- MSD潮湿敏感器件防护培训.ppt
- mri基础知识ppt课件.ppt
- 金版学案2017春高中政治第一单元公民的政治生活第二课第四框民主监督:守望公共家园课件.ppt
- 2013年江苏省高二学业水平测试模拟试卷(历史).doc
- 2025年储能系统在数据中心节能中的应用与效益分析白皮书.docx
- 2024-2025学年度临床执业医师练习题附参考答案详解(培优B卷).docx
- 2024-2025学年度临床执业医师练习题带答案详解(基础题).docx
- 跨境数码产品电商售后维修网络服务行业投资机会研究报告.docx
- 2024-2025学年度临床执业医师练习题带答案详解(实用).docx
- 2024-2025学年度临床执业医师练习题附完整答案详解(全优).docx
- 跨境数码产品电商维修技术合作市场前景研究报告.docx
- 2024-2025学年度临床执业医师练习题含答案详解(综合卷).docx
- 跨境水域保洁升级,2025年新能源电动清扫船市场发展趋势与风险分析报告.docx
- 跨境数码产品电商品牌运营推广策略实证分析.docx
最近下载
- 用人单位劳动合同模板.doc VIP
- 华熙生物-投资价值分析报告:全球最大透明质酸生产商的产业链延伸.pdf VIP
- 20200522-中信证券-华熙生物-688363-投资价值分析报告:研发驱动,服务美好生活.pdf VIP
- 医药生物行业:华熙生物,全球透明质酸领军企业.docx VIP
- 2025年校园监控系统方案(四篇).pdf VIP
- 2025广西公需科目考试答案(3套涵盖95-试题)一区两地一园一通道建设人工智能时代的机遇与挑战.docx VIP
- 华熙生物-投资价值分析报告-透明质酸,供需双振_20200413.pdf VIP
- 2025年校企合作实训项目设计与实施案例报告.docx
- 华熙生物-投资价值分析报告-全球透明质酸龙头,积极延伸医疗美妆终端.pdf VIP
- 重庆市巴蜀初一入学分班语文试卷版.doc VIP
文档评论(0)