基于贝叶斯算法的垃圾邮件过滤相关技术的研究.docVIP

  • 4
  • 0
  • 约4.97万字
  • 约 74页
  • 2016-03-25 发布于安徽
  • 举报

基于贝叶斯算法的垃圾邮件过滤相关技术的研究.doc

基于贝叶斯算法的垃圾邮件过滤相关技术的研究.doc

基于贝叶斯算法的垃圾邮件过滤相关技术研究 摘要 电子邮件系统目前互联网上最普及的应用之一。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人为的滥用。当今垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,贝叶斯过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。贝叶斯过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。 我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本分类和挖掘问题存在着很多不同。我们总结和分析了目前基于贝叶斯垃圾邮件过滤技术的现状,包括文本表 示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库,对基于贝叶斯的过滤方法提出了一系列改进。论文的具体内容包括: (1)对朴素贝叶斯算法进行了详细的研究,并且提出了三个方面的改进思路。在文本表示方面,提出采用指纹特征的表示方法;在特征选择方面,提出了基于类条件分布的特征选择;第三个方面,根据学习的不断深入性,提出了阈值动态调整算法。基于这些改进,实现了改进的朴素贝叶斯过滤器。 (2)分析邮件结构特点,从邮件结构不同于普通文本出发,提出集成加权模型,以充分利用邮件的结构信息。基于集成加权模型对邮件头和邮件正文分别建立模型

文档评论(0)

1亿VIP精品文档

相关文档