计算机系统结构专业优秀论文 垃圾邮件过滤技术研究.docVIP

计算机系统结构专业优秀论文 垃圾邮件过滤技术研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机系统结构专业优秀论文 垃圾邮件过滤技术研究 关键词:垃圾邮件 过滤技术 文本分类 支持向量机 链接特征分析 AdaBoost算法 组合策略 摘要:随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的一些关键问题。 由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。本文将其称为基于内容的垃圾邮件过滤技术。 本文概述了现有的基于内容的垃圾邮件过滤技术,指出了其中的三个关键问题:分类算法,特征选择方法和中文词串切分算法。我们分别对这三个问题进行了对比实验并给出了实验的结果。实验结果显示,支持向量机分类模型以及基于信息增益的特征选择方法能取得比较好的结果。我们实现了单字切分、二元切分和基于字典的正向最大匹配三种中文词串切分算法,实验结果显示简单的二元切分能取得和正向最大匹配算法相当的效果,而单字切分出入意料地比这两者都要更好。另外,由于垃圾邮件过滤的特性,停用词和标点符号对正确过滤有帮助,不应去除。 基于内容的垃圾邮件过滤器容易受到反过滤手段的欺骗。基于垃圾邮件发送者绝大多数情况下会在邮件中添加一个供读者点击访问的链接的事实,我们提出了一种新颖的基于邮件内含链接特征分析的垃圾邮件过滤技术。该技术提取邮件中与链接有关的特征,用支持向量机进行训练分类。实验结果显示这是一种快速有效的过滤技术。 垃圾邮件过滤的一个重要趋势是综合各种单独的技术进行判断。本文最后在前文工作的基础上,研究并实现基于改进的AdaBoost算法的多过滤技术组合策略。这是综合各种技术实现实用的垃圾邮件过滤系统的关键问题。我们运用该策略取得了很好的实验结果,在相同的数据集上,超过了SEWM2008垃圾邮件评测竞赛第一阶段任务的最好成绩。 正文内容 随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的一些关键问题。 由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。本文将其称为基于内容的垃圾邮件过滤技术。 本文概述了现有的基于内容的垃圾邮件过滤技术,指出了其中的三个关键问题:分类算法,特征选择方法和中文词串切分算法。我们分别对这三个问题进行了对比实验并给出了实验的结果。实验结果显示,支持向量机分类模型以及基于信息增益的特征选择方法能取得比较好的结果。我们实现了单字切分、二元切分和基于字典的正向最大匹配三种中文词串切分算法,实验结果显示简单的二元切分能取得和正向最大匹配算法相当的效果,而单字切分出入意料地比这两者都要更好。另外,由于垃圾邮件过滤的特性,停用词和标点符号对正确过滤有帮助,不应去除。 基于内容的垃圾邮件过滤器容易受到反过滤手段的欺骗。基于垃圾邮件发送者绝大多数情况下会在邮件中添加一个供读者点击访问的链接的事实,我们提出了一种新颖的基于邮件内含链接特征分析的垃圾邮件过滤技术。该技术提取邮件中与链接有关的特征,用支持向量机进行训练分类。实验结果显示这是一种快速有效的过滤技术。 垃圾邮件过滤的一个重要趋势是综合各种单独的技术进行判断。本文最后在前文工作的基础上,研究并实现基于改进的AdaBoost算法的多过滤技术组合策略。这是综合各种技术实现实用的垃圾邮件过滤系统的关键问题。我们运用该策略取得了很好的实验结果,在相同的数据集上,超过了SEWM2008垃圾邮件评测竞赛第一阶段任务的最好成绩。 随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的一些关键问题。 由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤

文档评论(0)

rq382655716 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档