基于多字符DFA高速正则表达式匹配算法.docVIP

下载本文档

12
0
约5.86千字
约 8页
2017-11-08 发布于福建
举报
版权申诉

基于多字符DFA高速正则表达式匹配算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多字符DFA高速正则表达式匹配算法

基于多字符DFA高速正则表达式匹配算法　　摘要：基于确定性有限自动机（DFA）的传统正则表达式匹配方法存在单周期处理单字符的速度瓶颈。为提升处理速率，提出一种单周期处理多字符的匹配算法MCDFA，该算法基于DFA实现，支持匹配位置的精确定位。MCDFA将传统DFA中的单字符跳转合并为多字符跳转，实现了单周期处理多个输入字符。通过状态转移矩阵二阶压缩算法，MCDFA分别对矩阵行内以及行间冗余进行消除，减少了内存使用。300条规则下，单周期处理8字符时，MCDFA吞吐率能够达到7.88Gb/s，内存占用小于6MB，预处理时间为19.24s。实验结果表明，MCDFA能够有效提升系统吞吐率，并且保证内存占用在可接受范围之内，性能优于现有正则表达式匹配算法。关键词：正则表达式；高速；多字符；精确定位；矩阵压缩中图分类号： TP393 文献标志码：A 0 引言近年来，作为网络信息过滤、文字处理等应用中的关键部分，正则表达式匹配技术得到了快速发展，作为实现模式匹配的主要手段，广泛应用于二进制序列分析、扩展标记语言处理及入侵检测系统[1-2]。目前正则表达式匹配主要通过不确定性有限自动机（Nondeterministic Finite Automata，NFA）以及确定性有限自动机（Deterministic Finite Automata，DFA）实现[3]。NFA的缺点在于时间复杂度比较高，对于有n个状态的NFA，空间和时间复杂度均为O（n）；DFA处理一个字符则只需要访问一个状态，时间复杂度降低为O（1），但空间复杂度增加为O（2n）[4-5]。由于理论模型限制，每个周期内，标准NFA和DFA最快只能处理一个字符，成为速度瓶颈[6-7]。为进一步提升匹配速率，当前众多研究都集中于如何构建支持单周期多字符处理的自动机结构。本文提出一种基于DFA的单周期多字符处理算法MCDFA（MultiCharacter DFA），利用了多字符处理的优势以及DFA时间复杂度低的特点，提升了系统处理速率，减少了内存访问次数。该算法支持每个周期处理2k个字符（k为任意自然数），并加入内存压缩技术，以减少内存消耗。通过现场可编程门阵列（Field Programmable Gate Array， FPGA）平台部署，算法的处理速率以及内存使用等性能得到了验证。 1 相关工作传统的单字符匹配算法中， Liu等[8]提出的CSCA（Clusterbased Splitting Compression Algorithm）通过切分状态转移矩阵减少内存使用； Yang等[9]提出的SFA（Semideterministic Finite Automata）算法通过将部分DFA转化为NFA实现内存缩减；Qi等[10]提出的FEACAN（FrontEnd Acceleration for ContentAware Network）算法通过压缩状态转移矩阵取得较好的内存性能。 Clark等[11]给出了一种基于多字符偏移并行处理的NFA结构。对于n位的目标字符串，首先求得偏移0到n-1位的n个字符串，将n个字符串送入n个相同的并行处理的NFA结构，得到匹配结果；该算法缺点在于多个NFA的复制导致内存消耗过大。 Sutton等[12]给出了基于字符编码的多字符NFA匹配在FPGA中的实现方法，该算法在Clark等[11]提出的算法基础上，将并行处理的NFA结构修改为串行处理的寄存器结构，避免了NFA的多次复制；但随着字符串长度的增加，系统处理延时增大，无法保证处理频率，影响吞吐率性能。在Sutton等[12]的基础上， Yamagaki等[13]给出了任意正则表达式到多字符NFA结构的构建方法，与之前的方法相比， Yamagaki等[13]最大的突破在于实现了单个NFA结构处理多字符输入的功能，但是处理速率仍然受到NFA本身特性的影响，且算法依赖于硬件实现。由于NFA时间复杂度较高，上述基于NFA的方法不能很好地改善系统吞吐率。为进一步提升处理速率，克服NFA的缺点，本文采用时间复杂度较低的DFA作为结构基础。 4 结语本文提出的MCDFA算法打破了传统的DFA算法单周期处理单字符的速度瓶颈，以一定的状态转移数量增长为代价，较好地提升了系统处理速率。MCDFA算法通过合并状态转移达到多字符处理目标，辅以相应的SST压缩算法，缓解了状态转移数量增长带来的内存损耗压力。通过FPGA部署实现，测试验证了算法的性能，给出了相应参数的选取标准，证明了算法的可行性和有效性。随着单周期处理字符数的增多，内存读写、内存损耗问题会带来较大影响，使得MCDFA算法处理速率增长速