行为识别技术在反垃圾邮件系统中应用.docVIP

下载本文档

2
0
约2.89千字
约 8页
2018-09-19 发布于福建
举报
版权申诉

行为识别技术在反垃圾邮件系统中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

行为识别技术在反垃圾邮件系统中应用

行为识别技术在反垃圾邮件系统中应用　　【摘要】：文章在信息-知识-智能统一理论的指导下，总结了目前存在的反垃圾邮件技术，对行为识别技术进行研究，提出了一种基于数据挖掘的垃圾邮件行为识别技术。　　【关键词】：行为识别技术；反垃圾邮件系统；方案设计　　中图分类号：TP3 文献标识码：B文章编号：1002-6908(2008)0110044-01 　　　　1．邮件过滤技术综述　　　　目前社会上存在的邮件过滤技术，大体上可以分为两大派，分别是内容过滤技术和行为识别过滤技术，两者各有其优点，任何一种技术做到极致都能有效地实现垃圾邮件过滤，但是他们也有缺点和不足。　　 1.1 基于黑名单的过滤　　黑名单过滤技术是一种比较常见的垃圾邮件过滤技术，主要是对发信人的IP地址、邮箱地址以及邮件服务器的域名进行过滤。　　 1.2 基于特征的过滤　　所有电子邮件都有邮件头、发件人地址、收件人地址、主题、信件内容等几个字段，根据其中某个或几个字段的特征对邮件的合法性进行判断便是基于特征的过滤。　　 1.3 基于内容的过滤　　对邮件进行过滤最根本的方法是内容过滤，不过垃圾邮件通过何种方式、采用什么手段发送到目标地址中，其内容是无法伪装的，所以对其进行内容理解然后过滤是最切实可行的方法。基于内容的过滤方法主要有基于规则的过滤方法和统计的过滤方法。虽然内容过滤是垃圾邮件过滤最根本的方法，然而它有一个最大的缺点，就是处理速度慢，占用CPU资源较多，并且浪费网络带宽资源。　　在目前情况下，对垃圾邮件的过滤，一般采用以内容过滤为核心，其他技术手段相辅助的方式。　　　　2．行为识别技术研究　　　　 2.1 垃圾邮件行为分析　　正常的邮件发送遵循标准的SMTP协议或ESMTP协议，有固定的模式。比如发送mail命令后，只有对方确认正确后才能进行邮件数据的传输和接收。然而SMTP协议相对比较简单而且很容易模拟，这些都给垃圾邮件制造者以可乘之机。　　垃圾制造者可以通过伪造合法的服务器身份、合法的发件人地址等手段来欺骗邮件服务器，并用目录树、字典攻击等方法来实现垃圾邮件的传播。因此垃圾邮件的发送不会完全遵循标准的SMTP协议或ESMTP协议，且具有一定的行为特征。例如在协议会话层可能会有多个rcpt to，而紧跟其后的邮件地址多数不存在，而这种行为特征就是典型的垃圾邮件行为特征，称之为DHA。　　 2.2 方案设计　　文章对垃圾邮件行为识别技术的研究是在信息-知识-智能统一理论的指导下进行的。根据垃圾邮件发送的行为特征，以大量研究数据为基础，提出并验证了一种基于数据挖掘方法的行为识别技术，用以过滤垃圾邮件，其具体流程如下：　　首先从邮件服务器的邮件发送日志入手，进行数据预处理，将非结构化数据转换为结构化数据，记录邮件发送过程中的各类行为要素，如时间、频度、发送IP、协议声明特征等，并在每一条记录后标注为垃圾邮件或正常邮件；然后从中抽取出垃圾邮件发送行为的特征属性，为模式挖掘做准备。利用数据挖掘相关技术，提取出垃圾邮件行为判定规则。最后对垃圾邮件行为判定规则进行模式分析，并建立基于行为识别技术的发垃圾邮件安全服务模型，用以解决实际问题。具体流程如图1所示。　　　　3．基于数据挖掘的垃圾邮件行为识别　　　　 3.1 特征数据采集　　文章设计的目的在于发现垃圾邮件发送行为的特征，因此需要对邮件发送行为数据进行分析和提取。邮件日志便是在垃圾邮件和网络交互的过程中抽取出来的第二手数据，这些数据包括邮件服务器的邮件记录如邮件大小、到达时间、主题等以及邮件过滤器所记录的协议特征，如发件人IP等。我们可对以上积累起来的结构化日志信息进行挖掘，从而发现垃圾邮件的网络发送行为特征。　　 3.2 特征属性提取　　对于已经收集到的邮件发送行为数据日志需要进行数据预处理，预处理的根本目的在于便于后续处理，提高挖掘的准确性。在本课题研究中，收集到的数据只有一个数据源，所以无需集成，另外数据本身已经为结构化数据，也不需要进行结构转化处理，但是其仍存在一些不足：　　 1）数据类型多样，处理困难。多数数字挖掘算法对数值是敏感的，无法对包含多个数据类型的数据源进行挖掘。　　 2）单独观察一条邮件发送日志，如果不与前后相联系，很难发现垃圾邮件的发送行为特征。　　因此需要对原始数据进行变换和离散化处理，用以发现这些数据垃圾邮件的特征属性。课题组提取邮件发送日志中的部分信息，加以融合，得到如表1所示的各个属性，每个属性都具有一定意义，用以作为区分正常邮件和垃圾邮件的依据。　　 3.3 模式挖掘　　模式挖掘过程具体表现在从日志信息中提取出垃圾邮件行为判