贝叶斯过滤垃圾邮件算法的基本步骤.pdfVIP

贝叶斯过滤垃圾邮件算法的基本步骤.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、贝叶斯过滤算法的基本步骤 1) 、收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集; 2) 、提取邮件主题和邮件体中的独立字串例如 ABC32,¥234 等作为 TOKEN串并 统计提取出的 TOKEN串出现的次数即字频。 按照上述的方法分别处理垃圾邮件集 和非垃圾邮件集中的所有邮件; 3) 、每一 个邮件 集对应 一个哈 希表, Hashtable_Good 对应非垃圾邮 件集而 Hashtable_Bad 对应垃圾邮件集。表中存储 TOKEN串到字频的映射关系; 4) 、计算每个哈希表中 TOKEN串出现的概率 P= (某TOKEN串的字频) / (对应哈 希表的长度); 5) 、综合考虑 hashtable_good 和 hashtable_bad ,推断出当新来的邮件中出现 某个 TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为: A 事件——邮件为垃圾邮件 ; t1,t2 ,...,tn 代表 TOKEN串 则 P (A|ti )表示在邮件中出现 TOKEN串 ti 时,该邮件为垃圾邮件的概率。 设 P1 (ti )= (ti 在 hashtable_good 中的值) P2 (ti )= (ti 在 hashtable_ bad 中的值) 则 P (A|ti )= P1 (ti )/[ (P1 (ti )+ P2 (ti )] ; 6) 、建立新的哈希表 hashtable_probability 存储 TOKEN串 ti 到 P (A|ti )的 映射; 7) 、至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表 Hashtable_Probability 可以估计一封新到的邮件为垃圾邮件的可能性。 当新到一封邮件时,按照步骤 2 )生成 TOKEN串。查询 hashtable_probability 得到该 TOKEN串的键值。 假设由该邮件共得到 N个 TOKEN串,t1,t2 ,, .tn, hashtable_probability 中对应的值为 P1,P2,。。。。。。PN,P(A|t1 ,t2, t3 ,, tn) 表示在邮件中同时出 现多个 TOKEN串 t1,t2 ,, .tn 时,该邮件为垃圾邮件的概率。 由复合概率公式可得 P(A|t1 ,t2, t3 ,, tn)= (P1*P2*。。。。PN)/[P1*P2* 。。。。。PN+(1-P1)* (1-P2) * 。。。(1-PN)] 当 P(A|t1 ,t2, t3 ,, tn) 超过预定阈值时,就可以判断邮件为垃圾邮件。 二、贝叶斯过滤算法举例 例如:一封含有“法 轮 功”字样的垃圾邮件 A 和 一封含有“法律”字样 的非垃圾邮件 B 根据邮件 A 生成 hashtable_ bad ,该哈希表中的记录为 法: 1 次 轮: 1 次 功: 1 次 计算得在本表中: 法出现的概率为 0.3 轮出现的概率为 0.3 功出现的概率为 0.3 根据邮件 B 生成 hashtable_good ,该哈希表中的记录为: 法: 1 律: 1 计算得在本表中: 法出现的概率为 0.5 律出现的概率为 0.5 综合考虑两个哈希表,共有四个 TOKEN串: 法 轮 功 律 当邮件中出现“法”时,该邮件为垃圾邮件的概率为: P=0.3/ (0.3+0.5 )= 0.375 出现“轮”时: P=0.3/ (0.3+0 )= 1 出现“功“时: P=0.3/ (0.3+0 )= 1 出现“律”时 P=0/ (0+0.5 )= 0 ;

文档评论(0)

zxs4123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档