- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Bayes的邮件过碌乃系统的研究与设计
基于Bayes的邮件过滤系统的研究与设计
摘 要 邮件过滤技术是反垃圾邮件的重要手段,本文提出了一种基于服务器端的垃圾邮件过滤系统,它采用改进的Bayes算法,将反映垃圾邮件的特征综合在一起统称为“属性”,用这些“属性”构成表示邮件特征的向量空间模型重点特征向量,避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险。 关键词 电子邮件;垃圾邮件;邮件过滤0 引言 中国互联网信息中心2003年7月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到16.1封电子邮件,其中垃圾邮件就占据了8.9封,垃圾邮件的数量超过了正常邮件数量,并有进一步增长的趋势,之所以造成垃圾邮件泛滥,是因为近几年来宽带网络的快速发展、网络通信成本的不断下降以及硬件性能的提高并且成本不断降低给垃圾邮件提供了很好的环境;电子邮件的易伪造性也是垃圾邮件泛滥的原因之一;还有现在对垃圾邮件,国家缺乏法律和规范的约束。虽然人们在技术和法律方面都进行不断的努力,垃圾邮件已经得到了一定的控制,但是,在国内由于技术和立法还没有达到一个足够的程度,导致国家已经成为世界垃圾邮件的新源头。 垃圾邮件的泛滥会造成很多危害,不仅影响国家的政治稳定、用户的正常工作学习,还会影响网络的安全性、稳定性、高效性;占用网络带宽和存储空间。所以对于垃圾邮件的防范及过滤技术的研究很有意义。1 研究现状 目前存在的反垃圾邮件技术,主要有三个大的方向: 一是修改现有的SMTP协议,制定一个新的安全可靠邮件协议,让垃圾邮件没有“生存的环境”。 二是使大量发送垃圾邮件发送者承受“巨大的成本”,以致通过电子邮件渠道来大量发送广告信息在经济利益上不合算,来减少垃圾邮件。 第三种是根据邮件的格式,发送时间,文件大小,内容以及其它特性,来识别该邮件是否为垃圾邮件,如果是,则把垃圾邮件过滤掉。识别的方法多种多样,过滤垃圾邮件效果的好坏决定于识别方法的准确度。 第一种方式是通过完善通信协议,增强安全认证性能,消除垃圾邮件泛滥的环境,来减少或消灭垃圾邮件产生。第二种方式是通过经济利益杠杆,使得在网络上大量的发送垃圾邮件,要承受巨大的经济负担,以至通过垃圾邮件来广告宣传方法是不经济的,来减少垃圾邮件产生。第三种是当垃圾邮件产生以后,通过各种各样的方法把垃圾邮件从邮件中识别出来并过滤掉,让接收者感觉不到这些垃圾邮件的骚扰。前两种是主动的方式,推的方式,从垃圾邮件产生的根源出发,不同的是一个从技术的角度,一个是从经济的角度。而第三种方式是被动的方式、拉的方式,它并不能杜绝垃圾邮件的重复产生,只能当垃圾邮件产生以后,通过方法识别出垃圾邮件,及时的剔除他们。前两种方式应用起来更加困难、复杂而第三种方式相对简单易行,因此当前第三种方式的反垃圾邮件方法研究和应用的更多。 垃圾邮件过滤技术就是第三种方式的反垃圾邮件方法,也是反垃圾邮件技术发展的重要方向之一。 从过滤的方法来分,过滤可以分为基于关键字的过滤、基于黑白名单的过滤、基于规则的过滤、基于内容的过滤等等。2 系统设计2.1 设计目标 目标是设计一个基于SMTP的、位于服务器前端的、具有较高过滤精度的垃圾邮件过滤系统。对于垃圾邮件的过滤,精度是最重要的问题,因为相比收到几封垃圾邮件来说,一封正常的邮件被过滤掉更让人难以接受,本系统所采取的所有方法都是旨在提高垃圾邮件过滤的精度。该系统位于邮件服务器的前端,代替邮件服务器接收邮件,完成过滤后,把邮件转发给邮件服务器,再由邮件服务器完成以后的功能。 该系统具备的功能主要有: 邮件数据包拦截 邮件数据包编、解码 高精度的自动分词 垃圾邮件过滤 自主学习 垃圾邮件处理 正常邮件转发 自动回复2.2 系统流程 因为电子邮件是以一定的编码方式在网络上根据SMTP协议传送的邮件数据包,所以系统首先拦截数据包,在SMTP会话过程中,可以根据会话过程中的Mail From和Rcpt To等会话进行过滤。经过这一层过滤后,将得到的邮件数据包进行解码,解码后的邮件为普通文本格式。电子邮件一般格式包括信头和信体两部分,其中信头包括发件人地址、收件人地址、主题、日期、路由信息等重要信息,信体是邮件的正文。 很多时候仅仅根据信头信息就可以判断一封邮件是否为垃圾邮件,所以先分离出信头和信体的信息,然后分别进行基于信头和基于内容的过滤。因为文本邮件的内容是机器无法识别的文本,所以首先要进行分词处理:分词的精度是影响分类的一个重要因素,所以这里必须注意消除歧义字段。根据垃圾邮件的特征向量构造表示该邮件文本的特征向量。然后把文本的特征向量通过邮件过滤器,区分出正常邮件和垃圾邮件。对于正常邮件,直接编码,按照SMTP协议发送给邮件服务器;而对于垃圾邮件则需要多种处理,如:保存、删除、自动回复等。这样就完成了一个完整的垃
文档评论(0)