- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
科技信息 0本刊重稿0 SCIENCETECHNOLOG~INFORMATION 2011年 第 3期
基于贝叶斯算法的垃圾邮件过滤系统的改进
周 强 ’ 李玉龙 ’ 罗 旭 ’黄 宁
f1.兰州交通大学数理与软件工程学院 甘肃 兰帅I 730070;
2.兰州交通大学 电子与信息工程学院 甘肃 兰州 730070)
摘【 要】大量的垃圾邮件的出现给用户收发电子邮件带来 了极大的困扰,目前基于贝叶斯算法的垃圾邮件过滤系统在处理垃圾邮件上取
得 了很好的效果 ,但该算法也存在一些缺 陷,本文从分析 贝叶斯算法入手,提 出了对该算法的一些改进方案 ,最后对 贝叶斯算法进行 了总结和
展望
关【键词】贝叶斯;垃圾邮件 ;改进贝叶斯算法
O 引言 P( )=—P (tl—)+2P—~(ti) (1)
s
随着Internet的发展 .电子邮件 已经成为一种人们常用 的沟通与 建立第 3张哈希表 hash—probability存储 tokent.和 tokent导致
交流的主要方式之一 .但是 由于其成本低 、传播迅速等特点,一些垃圾 一 封邮件是垃圾邮件 的概率P(A )的映射 。
邮件制造者 出于商业 的或其它 的 目的,在 网络中发布大量广告 、反动 1.2.5 根据哈希表 hash—probability计算一封新邮件为垃圾的概率。
信息、色情信息、病毒或蠕虫等垃圾邮件 。这些 邮件大量 占用网络带 a)当收到一封新邮件 ,按照步骤 2,生成 token串t。,t,…t。杏询
宽,浪费网络资源 .浪费用户宝贵时间及上 网费用 ,对 网络安全形成威 hash—probability表 ,得到 token串对应 的键值 P(A 1),P(A 2),…,P
胁 ,因此 ,反垃圾 邮件势在必形 。 (A ),若 t没有在该表中出现过 ,则设定P(A )为 0.4。
目前 .反垃圾邮件技术主要有基于规则的 Ripper算法 、决策 C4.5 b1计算IP(A )一0.5I,降序排序 ,选取最大的 15个关键 token。
算法 、Boosting方法 、KNN算法和贝叶斯方法等 。其 中,由于贝叶斯分 c)根据复合概率公式计算垃圾 邮件的概率 :
类方法表现出了很好 的性能 1,得到 了广泛 的研究 。但是 ,该算法 以两
个假设为前提在计算过程 中征用 了很多估计 ,从而影 响了算法的精确 l1P(A )
度。本文将分析 贝叶斯过滤算法 的原理和实现方法 ,针对其 中的缺陷, P(A 1,t2,···£)=
提出进一 步的改进方 向。 ⅡPA(~t)+兀(1-PA(~t))
i=1 =1
1 垃圾 邮件 的贝叶斯过滤算法 当P(A ,t,…t)超过既定 阈值 时,例如 0.9,就可 以判定 邮件为
垃圾 邮件 ,算法结束。
1.1 贝叶斯过滤算法
贝叶斯过滤算法认为:若已知某些字词经常出现在垃圾邮件 中却 2 贝叶斯算法的改进
很少出现在合法邮件中,当一封邮件含有这些字 同时,那么它是垃圾 邮
2.1 token的改进措施
件 的
您可能关注的文档
- 基于VC存取SQL Server中BLOB数据的方法.pdf
- 基于VC与Matlab混合编程实现图像增强处理.pdf
- 基于Veritas Netbackup备份平台的优化措施.pdf
- 基于VISSIM仿真的公交流量比与交叉口人均延误时间关系的研究——以南京市北京东路-龙蟠中路交叉口为例.pdf
- 基于Visual Lisp的高阶多段变性椭圆齿轮节曲线参数化设计.pdf
- 基于Voxler的井下瞬变电磁三维可视化研究.pdf
- 基于VTK的三维地震建模方法研究.pdf
- 基于V-系统的时间序列跳跃点检测新算法.pdf
- 基于WAMS的电力系统低频振荡在线分析算法研究.pdf
- 基于web2.0的虚拟学习社区设计.pdf
文档评论(0)