网站大量收购独家精品文档,联系QQ:2885784924

贝叶斯过滤技术交流.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 中文大标题:28-36pt 颜色: R0 G50 B150 字体:黑体(加粗+阴影) 英文大标题:32-36pt 颜色: R0 G50 B150 字体 : Arial (加粗+阴影) 正文子目录(1级) 颜色:R25 G100 B180 R255 G150 B0 中文字号:28—18pt 英文字号:32—20pt 中文字体:黑体(加粗) 英文字体:Helvetica(加粗) 正文(2-4级):12--24pt 颜色:黑色 灰色(60-70%黑) 中文字体:华文细黑 英文字体:Times New Roman 目录页---浅色/深色系(自选) 目录中文标题:18-28pt 颜色: 反白 字体:黑体(阴影) 目录英文标题:20-30pt 颜色: 反白 字体 : Arial(斜体+阴影) 贝叶斯过滤技术交流 2012年9月 —廖诚 议题 贝叶斯过滤算法的基本步骤 贝叶斯过滤算法举例 贝叶斯过滤模块划分 贝叶斯过滤算法的基本步骤 1)通过收集大量的邮件,按规则分为垃圾邮件和非垃圾邮件,并建立垃圾邮件集和非垃圾邮件集,相当于两个数据库; 2)提取邮件主题和邮件正文中的独立字串,如商品、易趣等作为TOKEN串,并统计TOKEN串出现的次数,即字频,按照上述方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件; 贝叶斯过滤算法的基本步骤 3)每一个邮件集对应一个哈希表,hashtable_good对应非垃圾邮件集,而hashtable_bad对应垃圾邮件集; 表中存储TOKEN串到字频的映射关系,如下所示: TOKEN串 出现次数 商品 N1 易趣 N2 法轮功 N3 色情 N4 贝叶斯过滤算法的基本步骤 4)计算每个哈希表中TOKEN串出现的概率 P={(某TOKEN串的字频)/(对应哈希表的长度)}; 5)综合考虑hashtable_good和hashtable_bad,推断当新来的邮件中出现某个TOKEN串时,该邮件作为垃圾邮件的概率; 如存在垃圾邮件事件S:t1,t2,…tn代表TOKEN串,则P{S/ti}表示在邮件中出现TOKEN串ti时,该邮件为垃圾邮件的概率。 贝叶斯过滤算法的基本步骤 6)建立新的哈希表 hashtable_probability,存储TOKEN串ti到P{S/ti}的映射,如下所示: TOKEN串 垃圾邮件的概率 商品 P{S/t1} 易趣 P{S/t2} 法轮功 P{S/t3} 色情 P{S/t4} 贝叶斯过滤算法的基本步骤 重复此步骤直到计算出P{S/ti} ,垃圾邮件集和非垃圾邮件集的学习过程就算结束了。 假设由当前邮件得到N个TOKEN串,t1,t2,t3,…tn,则hashtable_probability中对应的值为P1, P2, P3, …Pn。 P{S/t1,t2,t3,…tn}表示在邮件同时出现多个TOKEN串t1,t2,t3,…tn时,该邮件为垃圾邮件的概率。 贝叶斯过滤算法的基本步骤 通过复合概率公式计算可得: P{S/t1,t2,t3,…tn} =(P1 * P2*…* Pn)/[P1 * P2*…* Pn + (1- P1 )*(1- P2)*…*(1- Pn)] 当P{S/t1,t2,t3,…tn }超过预定阈值时,就可以判断该邮件为垃圾邮件。 贝叶斯过滤算法举例 例如:一封含有“法轮功”字样的垃圾邮件 A和 一封含有“法律”字样的非垃圾邮件B。 根据邮件A生成hashtable_ bad,该哈希表中TOKEN串的记录为: TOKEN串 出现次数 法 1 轮 1 功 1 贝叶斯过滤算法的基本步骤 计算TOKEN串在hashtable_ bad中出现的概率,如下所示: TOKEN串 出现的概率 法 0.3 轮 0.3 功 0.3 贝叶斯过滤算法举例 根据邮件B生成hashtable_good,该哈希表中TOKEN串的记录为: TOKEN串 出现次数 法 1 律 1 贝叶斯过滤算法的基本步骤 计算TOKEN串在hashtable_good中出现的概率,如下所示: TOKEN串 出现的概率 法 0.5 律 0.5 贝叶斯过滤算法的基本步骤 综合考虑两个哈希表,共有四个TOKEN串: 法、轮、功、律; 由此可得第三个哈希表hashtable_probability,当命中这些TOKEN串时,该邮件为垃圾邮件的概率分别为: TOKEN串 垃圾邮件的概率 法 P=0.3/(0.3+0.5)=0.375 轮 P=0.3/(0.3+0)=1 功 P=0.3/(0.3+0)=1 律 P=0/(0+0.5)=0 贝叶斯过滤算法的基本步骤 当新到一封含有“功律”的邮件时,我们可得到两个TOKEN串:功、 律; 查询哈希表hashtable_pro

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档