- 5
- 0
- 约9.63千字
- 约 7页
- 2016-07-01 发布于安徽
- 举报
针对垃圾邮件直接多关键词匹配算法.doc
针对垃圾邮件的直接多关键词匹配算法1
刘萍 谭建龙 沙瀛
中国科学院计算技术研究所
北京 2704信箱,100080
E-mail: liuping@ tan@ shaying@
摘要:本文提出了一种直接扫描电子邮件内容的多关键词匹配算法。邮件文本多采用Base64编码,由于Base64编码是前后相关的,所以完成匹配需要特殊的处理。本文提出的算法在不进行Base64解码情况下,直接对邮件内容进行扫描匹配;同时针对Base64编码结果是32位整型数据流的性质,本算法以32位块进行匹配操作,从而获得了比8位块的匹配更高的效率。实验结果表明,本算法比“解码-再匹配”策略快,比直接检索原始文本方法也要快。
关键词:垃圾邮件 直接多关键词匹配 串匹配 Base64 StringMatching
1 引言
为了扫描邮件病毒、拒绝垃圾邮件,安全系统需要具备对邮件内容进行分析的功能。过滤垃圾邮件,不仅仅需要对发送者地址、收件人地址、域名以及IP地址过滤,还需要对邮件文本内容和附件内容进行过滤。由于邮件内容通常采用Base64编码,而对于编码后的内容,普通关键词匹配就不能直接工作。一种简单直接的方法就是先解码再匹配,这种方法受到对Base64解码速度的限制,使邮件内容处理的速度大大下降。因此,为了实现高效的邮件内容的分析,需要一种能直接在Base64编码文本
原创力文档

文档评论(0)