华南理工大学《信息检索与web挖掘》课程论文剖析.docxVIP

  • 26
  • 0
  • 约9.99千字
  • 约 23页
  • 2017-03-21 发布于湖北
  • 举报

华南理工大学《信息检索与web挖掘》课程论文剖析.docx

华南理工大学《信息检索与web挖掘》课程设计论文基于模糊识别的垃圾邮件检测与识别方法学 院 计算机科学与工程学院专 业 计算机科学与技术(全英创新班)学生姓名 黄炜杰、黄健文 林力挺、柳雨新 学生学号 201230590051、201236590048201230590082、201230690130指导教师 董守斌提交日期 2016年 06月30日摘 要过去几十年中,有很多研究者提出很多垃圾邮件过滤的方法,包括判断来源法、判断行为法等,但是,使用最多而且精确的方法还是基于内容的垃圾邮件过滤方法。然而在对抗环境中,垃圾邮件制造者经常借助一些替换、插入、删除和编码等手段对单词进行模糊化,从而导致在不影响读者对信息的理解情况下隐藏文字自身的垃圾特性,干扰基于内容统计的过滤器对其的检测与过滤本文研究的是基于内容的垃圾邮件过滤系统,它能根据一封邮件的内容判断它是否是垃圾邮件。通过基于单词级别的模糊词检测技术能正确识别对抗环境中被恶意攻击的垃圾邮件。本文提出的垃圾词检测方法是对edit-string算法的改进,并融合了program还原与n-gram思想,通过滑动窗口对机器无法识别的字符串进行模糊检测,通过实验对比,在不包含模糊词攻击的情况下,算法检测效果相对于传统算法没有性能的下降,而在包含大量垃圾词攻击时,文中算法对垃圾邮件集仍有86%的准确率,而传统算法的准确率只有其一半

文档评论(0)

1亿VIP精品文档

相关文档