基于内容的垃圾邮件过滤技术的若干研究-计算机软件与理论专业论文.docxVIP

基于内容的垃圾邮件过滤技术的若干研究-计算机软件与理论专业论文.docx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容的垃圾邮件过滤技术的若干研究: 基于内容的垃圾邮件过滤技术的若干研究: 摘要 摘要 电子邮件系统是互联网应用的一个成功典范,它诞生时间不长却给人们的工作和生 活的诸方面带来了深刻变化.然而,电子邮件在给人们提供便捷通信手段的同时,也遭 到了一些人的滥用.今天,垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害.利 用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技 术中,内容过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究 较多的一种过滤技术。内容过滤方法在分类的效果上以及在不需要太多人工干预上都有 很大优势,因此逐渐被广泛接受。 我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本挖 掘问题存在着很多不同,我们对之进行了分析并提出了一系列改进。同时我们分析7垃圾 邮件过滤技术不能迸一步实用化的原因,并针对这些原因提出了一些解决办法。论文的具 体内容包括: (1)我们总结和分析了目前基于内容的垃圾邮件过滤技术的现状,包括文本表示、特征 选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库。 (2)相比传统文本挖掘问题处理的对象,邮件包含了种类更丰富的信息。我们通过对 现有工作的总结和分析,站在一个更高的高度,对垃圾邮件过滤所能使用的特征进行了 总结和分类。其中有关“属性特征”的研究目前较少,我们对之进行了详细研究,包 括属性特征的作用、如何将属性特征与普通文本特征相结合、以及属性特征的选择方法 等. (3)邮件语料样本的差异较大,尤其是在结构方面。我们从实验和理论两方面分析说 明了邮件语料这种在结构上的差异性,并分析了这种差异对垃圾邮件过滤造成的负面影 响。在此基础上,我们提出了~种基于结构特征的双层垃圾邮件过滤模型,并针对这种 模型做了一系列的实验,结果表明常用分类器在使用这种模型后性能有较明显的提升, 尤其是NaYve Bayes算法,在使用了这种模型之后,分类效果大大提高。 (4)尽管基于内容的垃圾邮件过滤在技术上已经比较成熟,但是在实用上并没有得到 与之相应的广泛应用.我们分析了基于内容的客户端垃圾邮件过滤不能进一步扩大实用 的原因,并且提出了一种将逻辑上的客户端过滤器前移到服务器上的模型.同时,我们 对用户信息建模和算法的增量式调整做了初步的探索. 关键词:垃圾邮件过滤;文本分类;机器学习;信息检索 基于内容的垃圾邮件过摅技术的若干研究:abstractResearch 基于内容的垃圾邮件过摅技术的若干研究:abstract Research on Content-Based Spare Filtering Wang Shen(Computer Software and Theory) Directed By Gao Gingshi Electronic mail(e-mail)is a big success of Intemet,it is becoming one of the fastest and most economical ways of communication available.At the Same time,the growing problem ofjunk mail例SO referred tO as‘spam’)has generated a need for e-mall filtering.There have been a lot of methods to beat spam,and the approach of using automated text categorization and information filtering to filter spam is become a most efficient one.We analyzed the currect technology of content-based spam filtering,and found lots of differences between the traditional text categorization Problem and the one ofspare filtering.Depend on these analysis, we develop some methods to improve the performance ofthe spam filtering algorithm. The contents ofthis article are as following: (1)A summary about the state of the content-based spar

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档