基于改进贝叶斯模型的中文邮件过滤系统.pdf

基于改进贝叶斯模型的中文邮件过滤系统.pdf

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘要 随着电子邮件在世界范围内的广泛应用,垃圾邮件作为商业广告、恶意程 l 序或敏感内容的载体,对系统安全和人类生活所造成的影响越来越严重,反垃 P 圾邮件问题作为一个全球性的课题具有重要的现实意义。另据统计表明,目前 我国已经成为第二大垃圾邮件受害国,因此,针对于中文垃圾邮件的识别与过 滤更显得尤为重要。 邮件过滤技术是反垃圾邮件的重要手段,目前的垃圾邮件过滤技术主要分 为两种:基于规则的过滤和基于概率的过滤。基于规则的过滤从邮件的结构出 发,通过对垃圾邮件特征的总结制定相应的过滤规则,但是垃圾邮件的表现形 式变化迅速,规则的维护并非易事。 基于概率的过滤技术是从邮件信体包含的内容出发,利用文本分类方法对 邮件类别进行判断。由于信体是垃圾邮件信息的最终载体,因此基于概率的过 滤具有较高的准确性,成为当前邮件过滤技术的主流。 论文对基于概率的邮件过滤技术进行讨论,其中着重研究贝叶斯算法及其 相关模型,详细介绍了朴素贝叶斯方法,最小风险贝叶斯方法的原理。论文在 贝叶斯方法现有的二项独立模型和多项式模型的基础上,结合最小风险贝叶斯 方法的思想,提出一种新的更加完善的贝叶斯分类器构造模型:改进贝叶斯模 型。实验表明,此模型具有较好的分类准确率和查全率。 论文结合邮件分类器的实现与测试,给出一种垃圾邮件过滤系统的设计结 构及具体实现。系统以分类器为核心,利用Linu)【环境下的开源软件Sendmail 作为邮件服务器的主体,通过对sendmail提供的Milter接口的开发和扩展实现 邮件过滤的功能;邮件分类器模块以插件形式嵌入Milter,并可根据需要更换 或添加其他分类算法;系统采用先进的实时中文分词技术和邮件解码技术,使 其更好的适用于中文邮件的分类工作。论文最后对系统的整体性能进行了联机 测试,给出系统在分类性能以及时间效率两方面的测试结果。 关键字:垃圾邮件,中文邮件分类,贝叶斯,M订ter接口 I■■■■■P l Abstract Abstract withthe of asthecarrierof Along extensiVe印pIicationE—mail,spaITlsacting business malice orsomesensitiVemailsare adVertisements,the progmms t11reatening the ofthe a11dthe life morea11dmore safety computersystemsdailyofpeople fiercely Nowthe about becomean problema11ti—sp锄haSalready and to Chinahasbecomethesecondone practicaltopic.Accordingstatistics,today thecountriesthoseVictim

文档评论(0)

rovend + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档