- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于BP 神经网络的多重邮件过滤系统的研究与设计
摘 要
随着互联网网络的高速发展,人与人之间在信息交流中使用电子邮件的频率与日俱
增,它逐渐成为一个重要的沟通媒介。但是,随着电子邮件的不断普及,伴随而来的是
垃圾邮件的泛滥,控制不好甚至会影响了人们的正常工作与生活。目前已有的垃圾邮件
过滤仍存在诸多不足,不能很好地将垃圾邮件区分过滤。针对这项不足,如何更好地加
强对垃圾邮件过滤技术的研究便显得尤为重要。
本次研究是要设计一种基于统计的邮件过滤系统模型。模型训练选用BP 神经网络
学习算法。实验过程对公共PU 语料库进行数据预处理和算法训练得到大量模型,接着
进行模型选择,最终通过模型组合得到垃圾邮件过滤系统主辅多重协同模型。邮件在该
模型的过滤过程中会被分成多股数据流进入FC 层,并分别在Output 层输出结果,再根
据子模型虚报率 (FALLOUT )计算权值得到最终判断结果。
论文预处理过程包括了基于Hadoop 的词频统计、基于改进TF 算法的词典降维和向
量空间模型(VSM )形式矩阵生成。词频统计得到总特征词列表、合法邮件特征词列表、
垃圾邮件特征词列表和每封邮件特征词列表。本研究针对数据预处理改进了传统的 TF
算法,通过词频统计对语料库特征词集合进行降维,将维度落在 2000 维内,收获较好
的实验结果。VSM 形式稀疏矩阵的生成通过JAVA 编写程序实现。主辅模型的选择上通
过数据划分将实验数据集划分为A 、B 、C 三个子集,组合算法训练子集和模型仿真子
集进行实验,比较A+B_C 、A+C_B 、A_B+C 三种方案训练的模型仿真调和平均精确率,
得到系统模型的主模型和辅模型。模型选择是此次研究的关键环节。实验通过不同搭配
方案得到模型间的比较、最优单一模型与SVM 算法训练模型的比较、最优单一模型与
系统组合模型间的比较一步步验证系统模型的性能。实验最后分别通过计算召回率、正
确率、F 值、精确率、AUC (Area Under Curve )值、基于MACCs 和FLOPS 的模型运
算量、内存占用率对系统模型性能做进一步的测试和评估。实验最终得到的结论,将奇
数个较优模型组合为一个分类器,通过多重过滤的方式,可以提高判断准确性和系统泛
化能力,并能够有效减少合法邮件的误判。
关键词:邮件过滤;VSM 形式矩阵;主辅多重过滤模型;AUC 值;性能评估
I
Research and Design of Multiple Mail Filtering System Based on BP Neural Network
Abstract
With the rapid development of the Internet, the frequency of using e-mail between people
is increasing day by day, and it has gradually become an important communication medium.
However, with the continuous popularization of e-mail, the proliferation of spam is
accompanied by poor control and even affecting peoples normal work and life. There are still
many shortcomings in the existing spam filtering, and the spam filtering cannot be well filtered.
In order to deal with this shortcoming, the research of strengthening spam filtering technology
is particularly important.
This study try to design a spam filtering system model on stati
您可能关注的文档
- 互联网时代“常香稻”大米整合营销传播策略研究.pdf
- 互联网时代怡宝纯净水的整合品牌传播研究.pdf
- 华新区教育科学研究院附属幼儿园室内外公共空间设计研究.pdf
- 化“危”为“机”——贫困地区教育舆情事件中政府应对策略的个案研究.pdf
- 环境湿度对混凝土中氯离子分布的影响研究.pdf
- 混合所有制下员工激励机制分析以中国联通为例.pdf
- 机构养老设施空间边缘化现象的设计对策研究——以青岛市为例.pdf
- 机器人伺服超声扫描系统的研究.pdf
- 机械取栓治疗急性基底动脉闭塞患者预后的影响因素.pdf
- 积极心理学导向下的中学心理健康教育模式案例分析.pdf
- 基于Flexbot下肢康复机器人_省略_台的多步态协同康复模式设计与实现.pdf
- 基于FPGA的软错误纠正算法及NB_IoT通信链路纠错分析.pdf
- 基于iWrite2.0写作评阅系统的两种反馈方式对大学生英语写作影响的实证研究.pdf
- 基于MassMotion的城市轨道交通换乘枢纽客流组织方案评估.pdf
- 基于MYTENO 2019产品开发中以新艺术运动风格为主题在“曲径”设计中的应用.pdf
- 基于Ohlson模型的巨人网络企业价值评估.pdf
- 基于p_QMs的不对称催化合成螺环色满和HDPEP衍生物的研究.pdf
- 基于Perlin噪声的花卉仿真算法研究.pdf
- 基于PHEV平台的车身电子功能架构设计与测试验证.pdf
- 基于Revit的空间网格结构参数化建模方法.pdf
文档评论(0)