一种基于P集合筛选过滤模式匹配算法.docVIP

下载本文档

2
0
约3.29千字
约 9页
2018-08-13 发布于福建
举报
版权申诉

一种基于P集合筛选过滤模式匹配算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于P集合筛选过滤模式匹配算法

一种基于P—集合筛选过滤的模式匹配算法　　摘要：本文实验分析了不同的网络及数据包状态对于不同的模式匹配算法所产生的性能影响；通过对动态数据集的相关性分析，提出了一种新的改进算法，通过最优数据筛选-过滤定理及模式串在文本串中的概率分布，找出模式串的特征字符组成新的匹配模式串；对原始数据集进行分层匹配，并对该算法进行了实验验证及性能分析。　　关键词：P-集合；概率分布；模式匹配　　中图分类号：TP301.6 　　1 背景　　在网络中，网络安全设备，需要对网络中海量的、复杂的数据包进行匹配分析，如何快速的从海量数据中提取出需要的特征信息，已经成为目前信息安全的重要课题。体现到实际网络环境中海量数据包中的入侵行为的显现，是多种特征数据包动态变化的过程。同时网络数据包集本身的基本属性是不变的，只是增加或减少了部分具有特征恶意的数据包，随着时间的推移各种可能入侵行为的产生，数据集本身的状态也在动态迁移中，对数据包的匹配检测而言，并不关心数据包集本身，其最想了解的而是数据动态迁移的过程。综上所诉我们发现数据包集生产过程是动态的过程且具有可描述性、随机性等特征。本文希望通过对P-数据包集合的特征分析，对海量数据包集进行过滤预处理筛选出可能存在特征模式串的文本区域，以提升模式匹配速率和匹配命中率。　　2 基于P-集合的筛选过滤多模式匹配算法设计　　不妨设发生异常入侵情况数据包集的具有的特征集：　　其中α1α2α3……αn分别对应的具体的异常属性有出口设备流量突然增大，核心交换CPU突然增大，核心交换内存使用突然增大，出现大量异常小数据包，出现长时间的端口扫描行为等症状属性，针对这些症状和现象在我们的入侵检测系统有对应的匹配检测手段，即通过模式匹配进行检测，其特征模式串及字符串中的字符集：　　通过对不同特征模式串的尝试可以使特征集α中的相关现象得以缓解。　　当我们α=0则我们找到了最优的解决方案，但是在发现最优解决方案的之前我们并不知道使用哪种特征模式串组合是我们需要的，即初始状态下元素迁移的概率s1的情况下：　　，　　为最优筛选-过滤数据集。　　通过上面的实验及讨论，分析了整个模式串ρ与算法效率的关系，显然存在当ρ↑则有ρ（pi）↑。参考P-集合最优数据筛选-过滤数据集思路：在精确多模式匹配的时候先对数据集进行筛选-过滤，通过最优数据筛选-过滤定理选择最优模式串及字符串组合对数据集进行筛选-过滤，然后在精确匹配的算法设计思路。　　又因为：　　也就说ρ是由ρ（pi）与其条件概率共同决定的。　　ρ（pi）对算法又有什么影响呢？结合AC和WM算法的分析，做如下工作：　　以AC算法为例，不妨设状态机及其模式串字符间的概率如下图所示：　　所以选择条件概率最小的那个作为特征点，可以减少匹配查找的时间。　　由上图可得可以选择A距离为2的C作为共同作为特征点先查找匹配。则根据以上条件设计如下算法：　　第一步：　　初始化：根据特征字符集的特征字符选择K个有限的字符组合组成新的特征模式串。　　第二步：　　参考Pi条件概率选取K个Pn…作为模式串的查找序列；如果存在有限状态机存在分支且存在较小的Pn…；则分别且至少每分支上选取上一个Pn…组成新状态机的分支。　　第三步：　　参考最优数据筛选-过滤定理，对数据集进行筛选-过滤，记录数据集筛选-过滤后的属性集：，得到最优模式串及字符串组合。如上图最优的字符串组合为A和C。　　第四步：　　记录Pn…与Pi的间隔字符数n-i=d；即A与C的间隔为2。　　第五步：　　通过Pi与Pn…组成新的序列通过AC算法比较若成功跳到第四步即AC组成新的有限状态机如图　　第六步：　　分解原状态机后精确匹配；　　3 实验分析　　实验条件：　　设当字符集大小|Σ|=256，模式串长度m=8字节，模式串个数r=500，文本长度n=1M字节时，在完全随机生成数据。　　设分别ρ以{0，0.01，0.02，0.03，0.04，0.05，0.06，0.07，0.08，0.09，0.1}取出模式串以随机的方式分散替换到文本串中。　　字符间固定存在如下的ρi{0.1，0.001，0.04，0.03，0.02，0.008}作为字符间的条件概率分布。根据选择与Pi条件概率较小K个Pn…作为模式串的查找序列；如果存在有限状态机存在分支且存在较小的Pn…；则分别且至少每分支上选取上一个Pn…组成新状态机的分支，生成新的模式串查找序列。　　本实验从特征模式串及字符串中的字符集中，固定只选取2个字符组合作为筛选-过滤参考条件。　　实验1：　　当选择ρi=0.1的两个字符组合则有得到如下表的实验结果：　　通过