基于神经网络集成的垃圾邮件过滤系统设计-计算机应用技术专业论文.docxVIP

  • 6
  • 0
  • 约4.93万字
  • 约 49页
  • 2019-03-30 发布于上海
  • 举报

基于神经网络集成的垃圾邮件过滤系统设计-计算机应用技术专业论文.docx

1 1 2 2 摘要 网络的推广与应用使得电子邮件已经成为人们信息交流的重要手段,但随 之而来的垃圾邮件问题严重影响人们的生产和生活。垃圾邮件过滤技术的研究 具有十分重要的意义。目前存在的垃圾邮件过滤技术存在诸多不足,不能完全 地将垃圾邮件过滤掉。为了达到将垃圾邮件完全过滤的理想状况,需要研究一 种更加有效的垃圾邮件过滤技术,提高邮件分类的准确率。 集成可以提高分类器分类的准确率。在目前应用于垃圾邮件过滤的机器学 习方案中,神经网络是比较有效的方法之一。但是,神经网络容易陷入局部极 小值,造成邮件的误分。因此,将神经网络进行集成,采用神经网络集成技术 将多个不同的神经网络单分类器组合成一个分类器,集成的输出由构成集成的 各神经网络的输出共同决定。基于该思想来提高学习的系统的泛化能力,提高 过滤系统的过滤性能。本文就此方面进行研究。 本文设计的邮件过滤系统模型由邮件预处理、特征提取、分类器设计三个 部分组成。其中,邮件预处理把标准邮件语料库中的数据表示为计算机容易识 别和处理的向量空间模型(VSM)形式;特征提取采用信息增益(IG)算法降低了 数据的维数,提高了算法的运行效率;分类器设计采用神经网络集成的方法 Boosting 和 Bagging 来构造邮件分类器,通过组合多个单分类器的输出结论的方 式训练分类器,确定邮件的类别,对垃圾邮件进行过滤。在垃圾邮件语料库 PU 系列语料库上 分别 进行了实验 。 除传统评价指标外, 本文 还采用 混淆矩阵 (Confusion Matrix)的评价方法,通过与单分类器 RBF 神经网络的过滤性能比较, 证明了神经网络集成对于垃圾邮件的过滤有较好的效果。 【关键词】邮件过滤 预处理 特征选择 神经网络集成 Abstract It makes the e-mail have become an important means of information exchange to population and application of the network. However, problem of spam seriously affect peoples production and life. The research of the spam filtering technology is of great significance. There are many inadequacies in the existing spam filtering technologies currently; the spam can not be completely filtered out. In order to achieve a complete filtering spam ideal situation, it needs to study a more effective spam filtering technology so as to improve the e-mail classification accuracy. Ensemble can improve the classification accuracy of classifier. Neural network is more effective one of the methods which are used in machine learning programs currently. However, neural network is easy to fall into local minimum, assigning an e-mail to the wrong category. Neural network ensemble combines a number of different neural networks into a single classifier, and its output is decided to the integration of various neural networks. Based on the idea to improve the generalization ability of learning systems, improve the filtration performance of filtration systems. This paper will be studied in this respect. The spam filtering system model designed in this paper

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档