基于贝叶斯算法的垃圾邮件过滤系统的改进.pdf

下载文档 降价啦

7
0
约1.05万字
约 2页
2017-08-26 发布于江苏
举报
版权申诉
保障服务

基于贝叶斯算法的垃圾邮件过滤系统的改进.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

科技信息 0本刊重稿0 SCIENCETECHNOLOG~INFORMATION 2011年第 3期基于贝叶斯算法的垃圾邮件过滤系统的改进周强 ’ 李玉龙 ’ 罗旭 ’黄宁 f1．兰州交通大学数理与软件工程学院甘肃兰帅I 730070； 2．兰州交通大学电子与信息工程学院甘肃兰州 730070) 摘【要】大量的垃圾邮件的出现给用户收发电子邮件带来了极大的困扰，目前基于贝叶斯算法的垃圾邮件过滤系统在处理垃圾邮件上取得了很好的效果，但该算法也存在一些缺陷，本文从分析贝叶斯算法入手，提出了对该算法的一些改进方案，最后对贝叶斯算法进行了总结和展望关【键词】贝叶斯；垃圾邮件；改进贝叶斯算法 O 引言 P( )=—P (tl—)+2P—~(ti) (1) s 随着Internet的发展．电子邮件已经成为一种人们常用的沟通与建立第 3张哈希表 hash—probability存储 tokent．和 tokent导致交流的主要方式之一．但是由于其成本低、传播迅速等特点，一些垃圾一封邮件是垃圾邮件的概率P(A )的映射。邮件制造者出于商业的或其它的目的，在网络中发布大量广告、反动 1．2．5 根据哈希表 hash—probability计算一封新邮件为垃圾的概率。信息、色情信息、病毒或蠕虫等垃圾邮件。这些邮件大量占用网络带 a)当收到一封新邮件，按照步骤 2，生成 token串t。，t，…t。杏询宽，浪费网络资源．浪费用户宝贵时间及上网费用，对网络安全形成威 hash—probability表，得到 token串对应的键值 P(A 1)，P(A 2)，…，P 胁，因此，反垃圾邮件势在必形。 (A )，若 t没有在该表中出现过，则设定P(A )为 0．4。目前．反垃圾邮件技术主要有基于规则的 Ripper算法、决策 C4．5 b1计算IP(A )一0．5I，降序排序，选取最大的 15个关键 token。算法、Boosting方法、KNN算法和贝叶斯方法等。其中，由于贝叶斯分 c)根据复合概率公式计算垃圾邮件的概率：类方法表现出了很好的性能 1，得到了广泛的研究。但是，该算法以两个假设为前提在计算过程中征用了很多估计，从而影响了算法的精确 l1P(A ) 度。本文将分析贝叶斯过滤算法的原理和实现方法，针对其中的缺陷， P(A 1，t2，···￡)= 提出进一步的改进方向。 ⅡPA(~t)+兀(1-PA(~t)) i=1 =1 1 垃圾邮件的贝叶斯过滤算法当P(A ，t，…t)超过既定阈值时，例如 0．9，就可以判定邮件为垃圾邮件，算法结束。 1．1 贝叶斯过滤算法贝叶斯过滤算法认为：若已知某些字词经常出现在垃圾邮件中却 2 贝叶斯算法的改进很少出现在合法邮件中，当一封邮件含有这些字同时，那么它是垃圾邮 2．1 token的改进措施件的