基于贝叶斯理论的中文垃圾邮件过滤算法研究-计算机软件与理论专业论文.docxVIP

基于贝叶斯理论的中文垃圾邮件过滤算法研究-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 硕 士 学 位 论 文 基于贝叶斯理论的中文垃圾邮件过滤算法研究 Research of Chinese Spam Filtering Algorithm based on Bayes Theory 作 者 姓 名: 包理群 学科、专业 : 计算机软件与理论 学 号 : 0206492 指 导 教 师: 伍忠东 完 成 日 期: 2009.04 兰 州 交 通 大 学 Lanzhou Jiaotong University 兰州交通 兰州交通大学硕士学位论文 摘 要 随着互联网的迅速普及,电子邮件已经成为现代通信的主要手段之一。然而垃圾邮 件的泛滥也引起了人们的高度重视,垃圾邮件不仅耗费用户的时间和精力、占用大量的 网络带宽和存储资源,而且带来了网络和信息安全隐患。因此,研究垃圾邮件过滤技术 具有重要的现实意义。 基于内容的垃圾邮件过滤技术是反垃圾邮件的重要技术,目前主要有关键词过滤技 术、基于规则的过滤技术和基于统计学习的过滤技术。基于概率统计的朴素贝叶斯算法 因其简单、高效、分类精确度高等优点,被广泛应用于垃圾邮件过滤系统中,然而它也 也有缺点,例如不能很好地应用于中文邮件过滤、没有考虑到误判风险、不能进行增量 学习等。 分析了中英文邮件在分类处理上的差异,讨论了中文邮件预处理技术,包括邮件解 析、中文分词和特征选取,并给出了朴素贝叶斯中文邮件过滤算法。邮件过滤中,合法 邮件误判为垃圾邮件会给用户带来更大的损失,传统贝叶斯算法没有考虑到这种差异。 在朴素贝叶斯算法基础上,引入了损失最小化的思想,提出了最小风险贝叶斯邮件过滤 算法,该算法能根据用户的需求通过调整损失因子的大小,达到相应的过滤效果。 在训练集数据不完备的情况下,贝叶斯分类器容易对新邮件产生分类错误,若这些 分类错误的邮件过早地加入到分类器中会降低其分类性能。传统贝叶斯分类器要想学习 新样本所包含的信息,必须重新学习全部样本,这样每学习一次,都要耗费大量的时间。 为解决这些问题,提出了基于用户反馈的贝叶斯增量学习算法,在最小风险贝叶斯分类 器的基础上,自主选择学习新样本修正分类器,并给出了增量学习计算公式。 使用JAVA语言实现了本文提出的算法,在中国教育科研网的中文邮件语料上测试 了中文邮件过滤中特征数、损失因子等参数和过滤效果间的关系,得出了较优的参数设 定。实验结果也表明改进的基于用户反馈的最小风险贝叶斯增量学习算法在性能上优于 传统的贝叶斯邮件过滤算法。 关键词:贝叶斯算法;垃圾邮件过滤;中文分词;最小风险;增量学习 论文类型:应用研究 I - Abstract With the rapid popularization of Internet, e-mail has become one of the primary means of communication. But much attention is also aroused by the flood of spam, spam not only waste user’s time and energy, use up a lot of network bandwidth and storage resources, they also bring potential secure problems of network and information.Therefore spam filtering is a subject with important practical significance. Content-based spam filtering technology is an important anti-spam technology, which at present is mainly based on words filtering, rule-based techniques and statistical learning methods. Na?ve Bayes algorithm which is based on probability and statistics has been widely used in the area of spam filtering for its simplicity, efficiency and accuracy. However, it also has shortcomings, such as it can not be applied to chinese e-mail filtering commendably, does not take into accoun

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档