网站大量收购独家精品文档,联系QQ:2885784924

遗传算法和贝叶斯模型在垃圾邮件过滤中应用-application of genetic algorithm and bayesian model in spam filtering.docx

遗传算法和贝叶斯模型在垃圾邮件过滤中应用-application of genetic algorithm and bayesian model in spam filtering.docx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
遗传算法和贝叶斯模型在垃圾邮件过滤中应用-application of genetic algorithm and bayesian model in spam filtering

摘要 摘要 ABSTRACT ABSTRACT I I PAGE PAGE IV 摘 要 随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、 低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发 展也让某些不法商人看到其中的巨大利益,垃圾邮件随之出现并且日益泛滥。垃 圾邮件在互联网上的传播不仅浪费互联网资源,而且成为有害信息和恶意软件传 播的重要途径。由于数量庞大的垃圾邮件对个人和企业的利益都造成了严重危害, 反垃圾邮件的相关技术和政策随之出现。在早期的反垃圾邮件技术中,研究者们 提出了基于黑白名单的过滤技术、基于关键字的过滤技术、基于自定义规则的过 滤技术等。这些方法能在一定程度上遏制垃圾邮件的传播,但是由于本身规则固 定、且需要大量人工维护,目前都只是作为辅助手段。针对这些反垃圾邮件技术 的缺点,研究者们提出了基于概率统计和机器学习的过滤技术,如贝叶斯分类技 术。 研究者们对于原始的贝叶斯分类技术进行了很多方面的改进,比如朴素贝叶 斯分类模型以及 AODE 分类模型。针对实际应用场景中对实时性的要求,也有研 究者提出了 AAPE 分类模型。但是 AAPE 分类模型在选择父属性时没有考虑属性 本身的顺序对分类结果的影响,因此有可能导致分类早期的分类正确率较差。本 文中针对 AAPE 分类模型的不足,提出了基于遗传算法和特征项权重的 GAAPE 分类模型,在计算资源和分类结果之间取得动态平衡。本文的主要研究成果如下: 1. 将遗传算法和特征项权重计算方法引入 AAPE 分类模型,提出了 GAAPE 分类模型。分别利用属性平均互信息和卡方统计信息的大小作为遗传算法适应度 函数的依据,使用遗传算法将属性排序后分别计算 SPODE。结果显示 GAAPE 分 类模型分类效果比 AAPE 好,特别是在分类的早期能迅速降低分类错误率。 2. 设计并实现了一个基于 GAAPE 模型的垃圾邮件过滤系统原型。该系统引 入了黑白名单和关键字过滤技术作为第一阶段的初步过滤,实现了以 GAAPE 分类 模型为主体的第二阶段的智能过滤。通过实验测试,GAAPE 分类模型比 AAPE 分 类模型在分类准确度上有明显的提升,达到了过滤的即时性和准确性的动态平衡。 关键词:垃圾邮件过滤,互信息,卡方统计,遗传算法,贝叶斯分类模型 ABSTRACT With the rapid development of science and technology and the arrival of the Internet era, e-mail has become a necessary implement of communication in our work and life for its convenience, rapid, and low-cost. However, some unscrupulous businessmen have seen the vast interest of commerce through the rapid development of the e-mail, and the junk e-mail comes and spread widely. The spread of junk mail not only consumes large resources of the Internet, but also becomes a transmission way of the harmful information and the malicious software. Anti-spam technology and policy arise because of the significant risk that a large number of junk mail has taken to enterprises and individuals. In the early stage of the anti-spam technology, researchers have proposed many methods, including black/white lists, filters basing on keywords, filters basing on rules, etc. These methods manage to suppress the spread of the junk mail to a certain extent, but these methods are now assisted methods because of i

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档