网站大量收购独家精品文档,联系QQ:2885784924

华南理工大学《信息检索与web挖掘》论文介绍.docx

华南理工大学《信息检索与web挖掘》论文介绍.docx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华南理工大学《信息检索与web挖掘》课程设计论文基于模糊识别的垃圾邮件检测与识别方法学 院 计算机科学与工程学院专 业 计算机科学与技术(全英创新班)学生姓名 黄炜杰、黄健文 林力挺、柳雨新 学生学号 201230590051、201236590048201230590082、201230690130指导教师 董守斌提交日期 2016年 06月30日摘 要过去几十年中,有很多研究者提出很多垃圾邮件过滤的方法,包括判断来源法、判断行为法等,但是,使用最多而且精确的方法还是基于内容的垃圾邮件过滤方法。然而在对抗环境中,垃圾邮件制造者经常借助一些替换、插入、删除和编码等手段对单词进行模糊化,从而导致在不影响读者对信息的理解情况下隐藏文字自身的垃圾特性,干扰基于内容统计的过滤器对其的检测与过滤本文研究的是基于内容的垃圾邮件过滤系统,它能根据一封邮件的内容判断它是否是垃圾邮件。通过基于单词级别的模糊词检测技术能正确识别对抗环境中被恶意攻击的垃圾邮件。本文提出的垃圾词检测方法是对edit-string算法的改进,并融合了program还原与n-gram思想,通过滑动窗口对机器无法识别的字符串进行模糊检测,通过实验对比,在不包含模糊词攻击的情况下,算法检测效果相对于传统算法没有性能的下降,而在包含大量垃圾词攻击时,文中算法对垃圾邮件集仍有86%的准确率,而传统算法的准确率只有其一半,证明了算法的有效性。关键词:对抗环境;垃圾邮件过滤;edit-string;模糊词匹配目 录第一章 绪论垃圾邮件问题的背景随着计算机网络的不断发展,从网上能够获取的信息已经渗透到社会的各个领域,电子邮件以其方便、快捷的信息交流方式深受各界人士的喜爱。然而由于大量的商家和不法分子借此方式向邮件用户发送大量的虚假广告,造成广大邮件用户浪费大量的宝贵时间在邮箱中寻找自己想要的信息。从邮件内容来看,垃圾邮件的种类繁多,特别是如果用MIME邮件服务协议的话,垃圾邮件制造者还可以插入图片附件到邮件中,并且将主要的信息放在图片中,比如,股票兜售和诈骗等信息。实际上,商业应用中不是只用一个分类系统就完成垃圾邮件过滤的,需要多个过滤系统来完成的,具体做法如图1-1,让邮件一次次通过多个不同分类系统的分类,每次把确定为垃圾邮件的邮件扔掉,然后再让剩下的邮件通过下一个邮件过滤系统的分类。图1-1 垃圾邮件过滤的多层模型对抗环境下的垃圾邮件过滤问题传统的基于统计的机器学习方法能对垃圾邮件有很好的过滤效果,可是道高一尺,魔高一丈,垃圾邮件的制造技术也会随着垃圾邮件过滤系统的性能的提高而提高。每个垃圾邮件制造者都企图通过攻击垃圾邮件过滤器,降低垃圾邮件的过滤效率,从而提高自己垃圾邮件发送的成功率。我们可以将很多种普通的垃圾邮件攻击方法分为以下两种:单词项级别的攻击和字符级别的攻击。其中单词级别的攻击方法主要是好词攻击,字符级别的攻击主要是单词模糊类问题。 好词攻击好词攻击是在邮件中插入大量的垃圾信息无关的正常段落或词汇,插入段落的方法一般是将邮件的头或者尾部插入正常邮件的段落[1,2]。也就是说某些攻击者为了绕过基于关键词的过滤器,他们大概是知道过滤器的过滤规则,所以将他想发的垃圾信息放在邮件的中间或后面。好词攻击是针对基于统计类垃圾邮件过滤器的一种攻击方法,因为统计类过滤器是根据基于邮件中个单词分别在垃圾邮件和正常邮件中出现的次数来进行邮件垃圾程度打分的,所以,如果攻击者在垃圾邮件中插入大量的好词,垃圾邮件过滤器则很有可能将这类邮件分为正常邮件。模糊词攻击模糊词攻击是指攻击者通过在垃圾单词中间插入、删除某些字母,插入特殊符号或者故意将垃圾单词拼写错误等方法来改变垃圾单词原来的形态,以躲过过滤器的拦截[3]。现在很多垃圾邮件攻击者喜欢用单词模糊来攻击统计类垃圾邮件过滤器。通过这种攻击方法,来降低单词为特征项的垃圾邮件过滤系统的性能[4,5]。常用的模糊方法:替换:用类似的符号替换相应的字符,比如将单词Viagra中的“v”替换为“∨”;插入:在字母之间插入空格或特殊字符,比如将Viagra变为Vi_a_gra;误拼:比如将Bachelor拼写为Bacheelor;连接:故意把两个单词连接在一起,比如low price变为low_price 几种方法组合使用。针对文字模糊类垃圾邮件如果不做特殊处理,直接按照原来预处理方法将邮件中出现的特殊符号和无实际意义的单词直接删除就会影响过滤器对垃圾邮件的识别。图1-2是对10封垃圾邮件做的一个测试,蓝线不含有模糊词攻击的垃圾邮件的评分,红线为模糊词攻击后垃圾邮件的评分。通过两条线的对比,我们可以看出,对于单词模糊类垃圾邮件,如果不通过一定的处理方法将模糊单词的意思还原或者处理,就很可能将单词模糊类垃圾邮件分类为正常邮件。图1-2 10封

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档