垃圾邮件的智能分析过滤和Rough集讨论.docVIP

垃圾邮件的智能分析过滤和Rough集讨论.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垃圾邮件的智能分析过滤和Rough集讨论

“垃圾邮件”的智能分析、过滤及Rough集讨论 刘洋1 杜孝平2 罗平3 侯志辉1 郭晨4 骆焕林1 1 重庆邮电学院99#信箱 重庆 400065 (lycqydxy@) 2 北京大学信息科学中心视觉与听觉国家重点实验室 北京 100871 3 中国科学院计算所 北京 100080 4 南京大学计算机科学与技术系第二研究室 南京 210093 摘 要 Internet的迅速发展,电子邮件的应用变得十分广泛,但是许多无用、有害信息随之而来。本文通过对“垃圾邮件”的分析、处理,讨论了电子邮件的智能过滤问题,并进行了基于粗糙集理论的邮件信头分析和实验。最后,介绍了下一步的工作。 关键词 电子邮件 垃圾邮件 过滤 前言 Internet的迅速发展,人与人的交往更加快捷方便,电子邮件(E-mail,Electronic mail)成为信息交互的重要工具,人们用它交流思想、传输文件、发表意见等。据IDC调查,2000年全球日平均发送邮件超过100亿封,到2005年将达350亿封以上。E-mail的日益普及,我们注意到网络管理面临着新问题——垃圾邮件的泛滥。所谓垃圾邮件主要有两类,一类是名目繁多的商业广告,另一类是非法团体为其政治、经济等目的,进行的“网络宣传”。后者的危害性显然远远大于前者。垃圾邮件耗费了有限的网络资源,反动邮件严重破坏了社会稳定。另外,它还侵犯了个人隐私,浪费了用户大量时间。所以垃圾邮件的智能分析、自动过滤,是目前研究的一个热点。 目前邮件过滤主要的方法有如下三种:(1)安全认证方法,也就是用户A向用户B发送邮件时,必须到用户B的邮件服务器上先进行登记,得到授权,否则邮件服务器拒绝接收。虽然有效地防止未经认证的用户发来邮件,具有很高的安全性,但影响了邮件的易用性;(2)基于规则的方法,很多时候是基于关键词匹配的邮件过滤,虽然能够处理邮件头和正文,但是实质还是生硬的二值判断,局限在二维空间上进行处理,缺少可信度的知识,同时要求用户自己定义规则,对用户的素质要求高,用户需要花费很多时间定义自己的规则,如果用户的兴趣发生变化,规则也要进行很大的改变,另外规则的纯粹人工定制,可能考虑并不周全;(3)统计的方法,可以不考虑具体的语义环境,但是只能区分合法邮件和垃圾邮件,很难进行分类。基于上述情况,本文从电子邮件的体系结构及传输协议入手,设计了基于“用户个性化”的垃圾邮件智能分析过滤概念系统模型,充分考虑到了现有方法的优点和缺陷。 电子邮件的体系 2.1 电子邮件的结构及传输 电子邮件可以视为半结构化的文本文件,包括邮件头和正文。RFC822标准邮件头则包括发信者的IP地址、邮件地址和邮件标题等信息。邮件的标题一般概括了其主要内容,正文则是该邮件的全部内容。通常情况下,一封E-mail的收发是从用户发出,通过发送邮件 本文得到了重庆邮电学院科创基金和课题组项目启动经费的资助。 刘洋(1980——)男 汉族 四川泸州人 学士,IEEE会员,计算机科学与技术研究所助理研究员,发表论文10余篇,主要研究方向:信息检索,通信中的人工智能。杜孝平,博士后,主要研究方向:数据挖掘。 客户端程序送到SMTP服务器,再转发到目的信箱。最后,由POP3服务器程序配合帐号、口令接收信箱的邮件。 2.2 相关网络协议 支持基于Internet的电子邮件服务协议主要有:SMTP、POP3、IMAP、MIME、HTTP等。其中SMTP和POP3配合完成简单的邮件收发。SMTP协议(Simple Mail Transfer Protocol,简单邮件传输协议)定义了传输普通正文文本(ASCII文本)的标准,提供了全双工通信,缺点是安全性不高。后来出现了ESMTP(扩展的SMTP协议)加以改进。现有大部分C/S都支持SMTP,故我们现有的研究是基于该协议的。另外,对于图像、声音、二进位格式等的非文本信息,MIME协议规定了相应的标准,这是复杂邮件过滤的基本原理,这里不作详细讨论。[1] 3、垃圾邮件过滤系统分析与设计 图1 垃圾邮件智能分析、过滤系统框图 整个系统的概念化设计如图1所示,它基于“用户个性化兴趣”,用户首先随机抽取一定量的邮件进行人工训练,建立用户个性化安全模型,自动学习用户在邮件处理方面的特征,并利用测试邮件调整,生成相关规则,同时兼及人为定义规则(特别注意的是,不同用户兴趣需求不同,其训练邮件和测试邮件相应不同,由于是自动生成规则,对系统本身影响不大,所以扩展性比较好)。通过分类词典对邮件自动分类,以便更好地进行预处理和建立向量空间模型,根据用户需求和兴趣的变化自适应的调整向量空间模型,由此过滤出邮件,另外有选择地手工归档,进行二次过滤,提高处理效率,整个过程中系统可以进行自动的邮件回复。而且,该系统由于分类词典和对关

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档