一种面向PDF文本内容审查的高效多模式匹配算法.PDFVIP

  • 16
  • 0
  • 约3.57万字
  • 约 6页
  • 2019-05-19 发布于天津
  • 举报

一种面向PDF文本内容审查的高效多模式匹配算法.PDF

一种面向PDF文本内容审查的高效多模式匹配算法.PDF

37 6 Vol. 37 No. 6 第 卷第 期 计算机应用研究 录用定稿 Application Research of Computers Accepted Paper 一种面向PDF 文本内容审查的高效多模式匹配算法 * 刘邦国,陈庆春,类先富 (西南交通大学 信息科学与技术学院, 成都 611756) 摘 要:多模式匹配算法是网络入侵检测和内容过滤的核心算法。针对Wu-Manber 多模式匹配算法所存在的匹配效 率低、跳转距离较小的问题,结合PDF 文本内容的编码规则,提出了一种适用于中文PDF 文本内容审查的Wu-Manber 改进算法。该算法使用布隆过滤器提取模式串关键信息,同时结合双重哈希和PDF 文本编码规则,减少了无谓的匹 配次数,加大了跳转幅度,从而提升了PDF 文本的匹配性能。实验结果表明,这种改进算法在PDF 文本审查中的 匹配速率有较大提升,尤其当最短模式串较长且模式串规模较大时速度可以提升一倍以上。 关键词:多模式匹配;Wu-Manber 算法;PDF 文本编码;布隆过滤器 中图分类号:TP301.6 doi: 10.19734/j.issn.1001-3695.2018.11.0868 Efficient multi-pattern matching algorithm for PDF content search Liu Bangguo, Chen Qingchun, Lei Xianfu (Southwest Jiaotong University, School of Information Science Technology, Chengdu 611756, China) Abstract: Multi-pattern matching plays an important role in network intrusion detection and content filtering. To solve the deficiency of Wu-Manber multi-pattern matching algorithm in terms of the achieved matching efficiency and jump distance , propose an improved Wu-Manber algorithm for Chinese PDF document content revciew on the basis of the coding formats of PDF document content. By employing the Bloom filter to extract the curcial information of the pattern string, and exploiting the double hash and PDF document encoding rules, it is shown that the proposed improved algorithm is able to reduce the number of unnecessary matches and increase the jump distance, thus improving the matching efficiency for the content retrieval of PDF document. The practical experimental results confirms the improved mat

文档评论(0)

1亿VIP精品文档

相关文档