- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、贝叶斯过滤算法的基本步骤
1) 、收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集;
2) 、提取邮件主题和邮件体中的独立字串例如 ABC32,¥234 等作为 TOKEN串并
统计提取出的 TOKEN串出现的次数即字频。 按照上述的方法分别处理垃圾邮件集
和非垃圾邮件集中的所有邮件;
3) 、每一 个邮件 集对应 一个哈 希表, Hashtable_Good 对应非垃圾邮 件集而
Hashtable_Bad 对应垃圾邮件集。表中存储 TOKEN串到字频的映射关系;
4) 、计算每个哈希表中 TOKEN串出现的概率 P= (某TOKEN串的字频) / (对应哈
希表的长度);
5) 、综合考虑 hashtable_good 和 hashtable_bad ,推断出当新来的邮件中出现
某个 TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为:
A 事件——邮件为垃圾邮件 ;
t1,t2 ,...,tn 代表 TOKEN串
则 P (A|ti )表示在邮件中出现 TOKEN串 ti 时,该邮件为垃圾邮件的概率。
设
P1 (ti )= (ti 在 hashtable_good 中的值)
P2 (ti )= (ti 在 hashtable_ bad 中的值)
则 P (A|ti )= P1 (ti )/[ (P1 (ti )+ P2 (ti )] ;
6) 、建立新的哈希表 hashtable_probability 存储 TOKEN串 ti 到 P (A|ti )的
映射;
7) 、至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表
Hashtable_Probability 可以估计一封新到的邮件为垃圾邮件的可能性。
当新到一封邮件时,按照步骤 2 )生成 TOKEN串。查询 hashtable_probability
得到该 TOKEN串的键值。
假设由该邮件共得到 N个 TOKEN串,t1,t2 ,, .tn, hashtable_probability
中对应的值为 P1,P2,。。。。。。PN,P(A|t1 ,t2, t3 ,, tn) 表示在邮件中同时出
现多个 TOKEN串 t1,t2 ,, .tn 时,该邮件为垃圾邮件的概率。
由复合概率公式可得
P(A|t1 ,t2, t3 ,, tn)= (P1*P2*。。。。PN)/[P1*P2* 。。。。。PN+(1-P1)* (1-P2)
* 。。。(1-PN)]
当 P(A|t1 ,t2, t3 ,, tn) 超过预定阈值时,就可以判断邮件为垃圾邮件。
二、贝叶斯过滤算法举例
例如:一封含有“法 轮 功”字样的垃圾邮件 A 和 一封含有“法律”字样
的非垃圾邮件 B
根据邮件 A 生成 hashtable_ bad ,该哈希表中的记录为
法: 1 次
轮: 1 次
功: 1 次
计算得在本表中:
法出现的概率为 0.3
轮出现的概率为 0.3
功出现的概率为 0.3
根据邮件 B 生成 hashtable_good ,该哈希表中的记录为:
法: 1
律: 1
计算得在本表中:
法出现的概率为 0.5
律出现的概率为 0.5
综合考虑两个哈希表,共有四个 TOKEN串: 法 轮 功 律
当邮件中出现“法”时,该邮件为垃圾邮件的概率为:
P=0.3/ (0.3+0.5 )= 0.375
出现“轮”时:
P=0.3/ (0.3+0 )= 1
出现“功“时:
P=0.3/ (0.3+0 )= 1
出现“律”时
P=0/ (0+0.5 )= 0 ;
您可能关注的文档
- 贝叶斯实验报告.pdf
- 贝叶斯方法在聚类中的应用.pdf
- 贝叶斯统计茆诗松版大部分课后习题答案.pdf
- 贝叶斯网络应用实例一:胸部疾病诊所(ChestClinic).pdf
- 贝叶斯网络的并行EM学习算法.pdf
- 贝叶斯预测模型.pdf
- 市场渠道分销合同协议.docx
- 位置信息数据授权协议.docx
- 物流装车全程监督协议.docx
- 人工智能2025年智能交通管理系统协议合同.docx
- 2020年9月安全监测报告「护网期间高危漏洞使用情况」.pdf
- 6、AI在APT追踪与防御中的应用-ABC_123.pdf
- HW多人运动溯源反制指北.pdf
- 1、大模型应用安全问题与应对措施探索-祝荣吉.pdf
- DeepSeek内部研讨系列—详解DeepSeek的9个安全问题 (2).pdf
- SMALI 逆向分析信息安全资料 (2).pdf
- 2020护网中的漏洞信息安全资料.pdf
- Linux Malware Incident Response_ A Practitioner's Guide ile Data - Cameron Malin & Eoghan Casey & James Aquilina信息安全资料.pdf
- android工具集-android安全信息安全资料.pdf
- APT视角下的攻防实践-2024腾讯安全沙龙(武汉站).pdf
原创力文档


文档评论(0)