模式匹配在基于内容的网络信息审计的研究.pdf

模式匹配在基于内容的网络信息审计的研究.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式匹配在基于内容的网络信息审计的研究 摘 要: 多模式匹配的效率是网络信息审计系统的瓶颈。本文在分析现有模式匹配方法的 基础上,将Aho-Corasick 算法(KMP 算法的扩展)加以改进,引入Bloom filters 机制,提 出了一种改进的快速多模式匹配方法。并将它应用于基于内容的网络信息审计模型中。实验 表明该系统能够对可疑信息做出快速反应,这样可以有效保证网络信息安全。 关键字: 网络安全;信息审计;模式匹配 中图法分类号:TP393 引言 随着全球信息化程度的加快,网络覆盖面越来越广,Internet 用户持续快速的增加,信 息基础设施已成为国民经济的一个重要支撑点。作为信息基础设施的一个重要组成部分,信 息安全关系到国家的军事机密、经济建设、社会稳定,关系到企业的战略决策、企业效益, 关系到个人隐私等。各种不良、反动以及涉及国家、企业机密的信息越来越多地借助于互连 网这种跨地域、跨国界、开放式的通讯方式进行传播。解决这一安全问题除了通过立法打击 这些违法和犯罪行为,对网络信息进行审计也是一种重要的手段。 目前,对网络信息审计系统的研究绝大部分都集中在报文完整性和合法性判别研究方 面,有关基于内容的审计研究报导不多[1] 。与单纯依赖IP 地址或URL 访问控制列表的网络 过滤技术相比,基于文本信息的过滤技术可以实时地过滤网络中的不良信息实现对电子邮 [2] 件、聊天室等网络信息的过滤 。因而研究并且设计一套基于内容的网络信息实时审计系统 对于网络信息的安全具有重要意义。 基于内容的网络信息审计系统必须要有很高的效率,应该有如下特征: 1)有效性:就是尽可能多地从数据包内容中、文本中发现与事先设定的模式串相匹配的 可疑信息。 2)实时性:就是能够快速地对数据包内容进行检测。随着网络技术的不断发展,带宽 不断增加,所以不能让网络信息审计成为网络数据传输的瓶颈。 3)成长性:因为网络信息审计系统是通过将数据包内容与事先设定的模式集进行比较 的,所以模式集应该不断更新,不断完善。 因此,在基于内容的网络信息审计技术中,多模式匹配是至关重要的技术之一。 1.模式匹配 根据需要匹配的模式串数目可以把模式匹配问题划分为两类:单模式匹配和多模式匹 配。两者之间的不同在于单模式匹配算法是在文本中通过一次搜索仅仅匹配一个给定的模 式,而多模式匹配算法则要在整个文本中搜索一个模式集给出的所有模式。 1.1 单模式匹配 单模式匹配是在长度为n 的文本串y=y[0..n-1] 中,寻找一个或多个长度为m 的模式串 x=x[0..m-1] 。 经典的单模式匹配算法有:Knuth Morris Pratt (KMP )算法,Boyer-Moore (BM )算法, - 1 - Karp-Rabin (KR )算法。在KMP 算法中,模式在文本串上从左向右滑动,搜索每一个可能 的匹配,文本串中的每一个字符仅仅被检测一次。因此,KMP 算法的时间复杂度是O (n+m ), n 和m 分别是文本串和模式串的长度。在BM 算法中,模式匹配是从右端而不是左端开始。 当出现一个字符不能匹配时,模式向右滑动,文本串中的一些字符没有被检测而直接跳过了。 在最坏情况下,BM 算法的时间复杂度为O (n+r*m ),其中,n 和m 分别为文本串和模式串 的长度,r 为文本中出现的模式串总数目。BM 算法在一般情况下不需要检测文本串中的每 一个字符,这一点在英文字符串中尤为突出。在KR 算法中,文本串首先被转换成哈希值序 列,然后将这些值继续与模式的哈希值进行匹配。KR 算法的时间复杂度为O (n+m ),n 和 [3] m 分别是文本串和模式串的长度 。 在实际应用中BM 算法是最有效的模式匹配算法。与其它经典算法相比较,BM 算法能 提供最好的平均匹配速度。另外,文献[4]中的算法也是从最右边的字符开始,由右到左扫 描模式串。假如出现某个字符不能匹配,此算法能用两个预处理函数向右移动文本集窗口。 Boyer-Moore-Horspool (BMH )算法简化了BM 算法,所以BMH 算法容易实现。在问题规 模比较小的情况下,用复杂度比较低的算法并不一定比复杂

文档评论(0)

qicaiyan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档