基于BP神经网络的多重邮件过滤系统的研究与设计.pdf

基于BP神经网络的多重邮件过滤系统的研究与设计.pdf

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于BP 神经网络的多重邮件过滤系统的研究与设计 摘 要 随着互联网网络的高速发展,人与人之间在信息交流中使用电子邮件的频率与日俱 增,它逐渐成为一个重要的沟通媒介。但是,随着电子邮件的不断普及,伴随而来的是 垃圾邮件的泛滥,控制不好甚至会影响了人们的正常工作与生活。目前已有的垃圾邮件 过滤仍存在诸多不足,不能很好地将垃圾邮件区分过滤。针对这项不足,如何更好地加 强对垃圾邮件过滤技术的研究便显得尤为重要。 本次研究是要设计一种基于统计的邮件过滤系统模型。模型训练选用BP 神经网络 学习算法。实验过程对公共PU 语料库进行数据预处理和算法训练得到大量模型,接着 进行模型选择,最终通过模型组合得到垃圾邮件过滤系统主辅多重协同模型。邮件在该 模型的过滤过程中会被分成多股数据流进入FC 层,并分别在Output 层输出结果,再根 据子模型虚报率 (FALLOUT )计算权值得到最终判断结果。 论文预处理过程包括了基于Hadoop 的词频统计、基于改进TF 算法的词典降维和向 量空间模型(VSM )形式矩阵生成。词频统计得到总特征词列表、合法邮件特征词列表、 垃圾邮件特征词列表和每封邮件特征词列表。本研究针对数据预处理改进了传统的 TF 算法,通过词频统计对语料库特征词集合进行降维,将维度落在 2000 维内,收获较好 的实验结果。VSM 形式稀疏矩阵的生成通过JAVA 编写程序实现。主辅模型的选择上通 过数据划分将实验数据集划分为A 、B 、C 三个子集,组合算法训练子集和模型仿真子 集进行实验,比较A+B_C 、A+C_B 、A_B+C 三种方案训练的模型仿真调和平均精确率, 得到系统模型的主模型和辅模型。模型选择是此次研究的关键环节。实验通过不同搭配 方案得到模型间的比较、最优单一模型与SVM 算法训练模型的比较、最优单一模型与 系统组合模型间的比较一步步验证系统模型的性能。实验最后分别通过计算召回率、正 确率、F 值、精确率、AUC (Area Under Curve )值、基于MACCs 和FLOPS 的模型运 算量、内存占用率对系统模型性能做进一步的测试和评估。实验最终得到的结论,将奇 数个较优模型组合为一个分类器,通过多重过滤的方式,可以提高判断准确性和系统泛 化能力,并能够有效减少合法邮件的误判。 关键词:邮件过滤;VSM 形式矩阵;主辅多重过滤模型;AUC 值;性能评估 I Research and Design of Multiple Mail Filtering System Based on BP Neural Network Abstract With the rapid development of the Internet, the frequency of using e-mail between people is increasing day by day, and it has gradually become an important communication medium. However, with the continuous popularization of e-mail, the proliferation of spam is accompanied by poor control and even affecting peoples normal work and life. There are still many shortcomings in the existing spam filtering, and the spam filtering cannot be well filtered. In order to deal with this shortcoming, the research of strengthening spam filtering technology is particularly important. This study try to design a spam filtering system model on stati

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档