贝叶斯过滤技术交流.ppt

下载文档 降价啦

6
0
约2.79千字
约 18页
2018-05-17 发布于四川
举报
版权申诉
保障服务

贝叶斯过滤技术交流.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 中文大标题:28-36pt 颜色: R0 G50 B150 字体:黑体(加粗+阴影)英文大标题:32-36pt 颜色: R0 G50 B150 字体 : Arial (加粗+阴影) 正文子目录(1级) 颜色:R25 G100 B180 R255 G150 B0 中文字号：28—18pt 英文字号：32—20pt 中文字体:黑体(加粗) 英文字体:Helvetica(加粗) 正文(2-4级):12--24pt 颜色:黑色灰色(60-70%黑) 中文字体:华文细黑英文字体:Times New Roman 目录页---浅色/深色系(自选) 目录中文标题:18-28pt 颜色: 反白字体:黑体(阴影) 目录英文标题:20-30pt 颜色: 反白字体 : Arial(斜体+阴影) 贝叶斯过滤技术交流 2012年9月 —廖诚议题贝叶斯过滤算法的基本步骤贝叶斯过滤算法举例贝叶斯过滤模块划分贝叶斯过滤算法的基本步骤 1）通过收集大量的邮件，按规则分为垃圾邮件和非垃圾邮件，并建立垃圾邮件集和非垃圾邮件集，相当于两个数据库； 2）提取邮件主题和邮件正文中的独立字串，如商品、易趣等作为TOKEN串，并统计TOKEN串出现的次数，即字频，按照上述方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件；贝叶斯过滤算法的基本步骤 3）每一个邮件集对应一个哈希表，hashtable_good对应非垃圾邮件集，而hashtable_bad对应垃圾邮件集；表中存储TOKEN串到字频的映射关系，如下所示： TOKEN串出现次数商品 N1 易趣 N2 法轮功 N3 色情 N4 贝叶斯过滤算法的基本步骤 4）计算每个哈希表中TOKEN串出现的概率 P={(某TOKEN串的字频)/(对应哈希表的长度)}; 5）综合考虑hashtable_good和hashtable_bad，推断当新来的邮件中出现某个TOKEN串时，该邮件作为垃圾邮件的概率；如存在垃圾邮件事件S：ｔ1,ｔ2,…ｔn代表TOKEN串，则P{S/ｔi}表示在邮件中出现TOKEN串ｔi时，该邮件为垃圾邮件的概率。贝叶斯过滤算法的基本步骤 6）建立新的哈希表 hashtable_probability，存储TOKEN串ｔi到P{S/ｔi}的映射，如下所示: TOKEN串垃圾邮件的概率商品 P{S/t1} 易趣 P{S/t2} 法轮功 P{S/t3} 色情 P{S/t4} 贝叶斯过滤算法的基本步骤重复此步骤直到计算出P{S/ｔi} ，垃圾邮件集和非垃圾邮件集的学习过程就算结束了。假设由当前邮件得到N个TOKEN串，ｔ1,ｔ2,ｔ3,…ｔn，则hashtable_probability中对应的值为P1, P2, P3, …Pn。 P{S/ｔ1,ｔ2,ｔ3,…ｔn}表示在邮件同时出现多个TOKEN串ｔ1,ｔ2,ｔ3,…ｔn时，该邮件为垃圾邮件的概率。贝叶斯过滤算法的基本步骤通过复合概率公式计算可得： P{S/ｔ1,ｔ2,ｔ3,…ｔn} =（P1 * P2*…* Pn）／[P1 * P2*…* Pn + (１- P1 )*(１- P2)*…*(１- Pn)］当P{S／ｔ1,ｔ2,ｔ3,…ｔn }超过预定阈值时，就可以判断该邮件为垃圾邮件。贝叶斯过滤算法举例例如：一封含有“法轮功”字样的垃圾邮件 A和一封含有“法律”字样的非垃圾邮件B。根据邮件A生成hashtable_ bad，该哈希表中TOKEN串的记录为： TOKEN串出现次数法 1 轮 1 功 1 贝叶斯过滤算法的基本步骤计算TOKEN串在hashtable_ bad中出现的概率，如下所示: TOKEN串出现的概率法 0.3 轮 0.3 功 0.3 贝叶斯过滤算法举例根据邮件B生成hashtable_good，该哈希表中TOKEN串的记录为： TOKEN串出现次数法 1 律 1 贝叶斯过滤算法的基本步骤计算TOKEN串在hashtable_good中出现的概率，如下所示: TOKEN串出现的概率法 0.5 律 0.5 贝叶斯过滤算法的基本步骤综合考虑两个哈希表，共有四个TOKEN串：法、轮、功、律；由此可得第三个哈希表hashtable_probability，当命中这些TOKEN串时，该邮件为垃圾邮件的概率分别为： TOKEN串垃圾邮件的概率法 P=0.3/（0.3+0.5）=0.375 轮 P=0.3/（0.3+0）=1 功 P=0.3/（0.3+0）=1 律 P=0/（0+0.5）=0 贝叶斯过滤算法的基本步骤当新到一封含有“功律”的邮件时，我们可得到两个TOKEN串：功、律；查询哈希表hashtable_pro