基于机器学习理论的垃圾邮件过滤系统的研究与改进-计算机应用技术专业论文.docxVIP

下载本文档

36
0
约6.42万字
约 70页
2019-02-19 发布于上海
举报
版权申诉

基于机器学习理论的垃圾邮件过滤系统的研究与改进-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

安徽大学硕士学位论文摘安徽大学硕士学位论文摘要 - - I - 摘要分类问题是机器学习与数据挖掘研究中最重要的问题之一，其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术，近年来得到了广泛的研究和快速的发展。论文介绍了垃圾邮件的危害性以及常见的过滤技术，分析了现有的垃圾邮件过滤技术与普通的文本分类问题之间存在的异同。同时还分析了当前这些垃圾邮件过滤技术的优点与不足，并针对这些原因提出了一些解决的办法。论文提出一种基于静态过滤和集成机器学习的邮件过滤系统的设计方案，最后通过实验验证了方案的有效性。论文的主要内容有： (1) 分析和总结了目前基于内容的垃圾邮件过滤技术的现状，从文本表示、特征选择、分类算法、评价体系等方面分析和总结了文本分类中不同方法之间的技术特点、发展趋势和可改进的地方。 (2) 特征过多会使训练集噪音过大，规则学习难度增大，时间耗费过多，尤其是规则学习精度降低。但目前有关特征的主要研究集中在特征提取上，而有关特征约简的研究较少。论文提出了一种基于粗糙集理论的特征约简算法。该算法以特征提取时计算得到的特征交叉熵为启发信息，将特征与粗糙集中的属性联系起来，采用粗糙集属性约简算法降低了特征维数，提高邮件处理效率。 (3) 设计了一个基于静态过滤和集成机器学习的邮件过滤系统。在静态过滤和粗糙集特征约简的基础上，通过规则库或者朴素贝叶斯和支持向量机两种方法的集成学习来判定邮件类别，并且不断更新系统的规则库，同时根据两种方法各自的判定结果来调整它们在合成公式中的权重。最终无论规则库还是合成公式都更加有针对性和实用性。 (4) 在 Windows 操作系统下用 Visual Studio.Net 2005 开发环境实现了本文提出的基于静态过滤与机器学习的垃圾邮件过滤系统，并且给出了过滤系统功能模块的具体设计。通过 KeyLib 和 CDSCE June 2005 两份邮件语料库对系统进行详细的效果测试，并从查全率、准确率、精确率和 F 值多个指标证实了该系统的高效性及实用性。本文的主要创新有以下几点： - - II - (1) 将粗糙集理论与特征提取相结合，提出了一种基于粗糙集属性约简的特征提取算法。该算法以特征交叉熵为启发信息，能够有效的约简大量的冗余特征，提高选取特征的代表性，降低特征维数，减少邮件判定时间，并且提高邮件过滤准确性。 (2) 提出了基于朴素贝叶斯和 SVM 方法的集成学习算法。同一封邮件两种方法分别学习，结果通过合成公式合成。初始系数均为 0.5, 通过大量语料库的学习不断调整两种方法的结果合成权重，最终达到针对该用户最合适的系数权重。 (3) 规则库会随着邮件的变化而相应调整。规则库中每一条规则的每一次使用都会有一个反馈作为对该规则的评价。而且为了保证查询的效率用户可接受，对规则库的规则数量作一个限制，譬如 2000。规则库的动态更新一方面依据规则的使用评价为依据，另外一方面也受到规则库的规则数量限制。也就是达到数量限制以后，表现最差的规则或者很长时间没有使用的规则就会被新生的规则代替。关键词：机器学习；文本分类；垃圾邮件安徽大学硕士学位论文Ab 安徽大学硕士学位论文 Abstract - - PAGE IV - Abstract Classification is one of the most important research fields in data mining and machine learning. In recent years, there have been extensive studies and rapid progresses in automatic text categorization, which is one of the hotspots and key techniques in the information retrieval and data mining field. This paper analyzes present spam email filtering technology. There are many differences between spam filtering and data mining, so this paper gives a series corresponding improvements. This paper also analyzes the reason why spam email filtering can’t be more practical, and gives some solutions to