- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
朴素贝叶斯算法在垃圾邮件过滤中应用
引言:垃圾邮件严重影响了正常的网络通信和商务 活动,给网民造成了巨大的经济损失。
本文将朴素贝叶斯算法运用于邮件分类,设计和实现了 基于朴素贝叶斯算法的邮件过滤器,能够实现邮件的过滤和 识别功能,具有高效、经济的优点,应用于垃圾邮件过滤领 域可以明显提高过滤的效果。
因特网的快速发展和应用使电子邮件已经成为人们生 活和工作不可缺少的工具。但是,随着而来出现了大量的垃 圾邮件。据中国互联网协会反垃圾邮件中心发布的《2012年 中国反垃圾邮件状况调查报告》显示,中国网民每周收到垃 圾邮件数量为15. 3封,平均每周收到垃圾邮件比例为34. 7%, 用户平均每周需要花费7. 3分钟来处理垃圾邮件。垃圾邮件 不但给用户带来了不便,而且严重影响了正常的网络通信和 商务活动。本文将朴素贝叶斯算法用于垃圾邮件过滤,因此, 研究有效的垃圾邮件过滤器具有很重要的现实意义。
反垃圾邮件技术
1. 1电子邮件原理
电子邮件与普通邮件原理相似,邮件先根据发信者的地 址存入发送服务器,发送服务器根据收件人者的邮件地址把 邮件传到收件方服务器,收信人登录邮箱时,收件方服务器 会把邮件送入收件人邮箱。具体的传送过程如下:发信人利 用客户端软件写好邮件,客户端软件利用SMTP协议将要发 送的邮件发送到本地的邮件服务器,接着本地服务器查看收 信人的邮件地址,如果收信人的地址不在本邮件服务器,那 么本邮件服务器就将本邮件发往相邻的邮件服务器或直接 发往目标邮件服务器里。如果用户使用客户端查看邮件内 容,客户端软件使用POP协议从邮件服务器取得邮件内容, 用户才能查看。
1. 2反垃圾邮件技术
目前,主要存在反向查询、挑战、密码技术和过滤等四 种办法减少垃圾邮件的产生。反向查询类似黑白名单,可以 智能地识别哪些是伪造的邮件,哪些是合法的邮件,能从很 大程度上解决垃圾邮件问题。挑战是通过延缓邮件处理过程 来阻碍大量邮件发送者。采用密码技术采用证书方式来验证 邮件发送者的方案,如果没有适当的证书,就可以认为是伪 造垃圾邮件。反向查询、挑战和密码技术实现起来较为复杂。 而过滤是一种最简单却很直接的处理垃圾邮件技术,主要用 于接收系统来辨别和处理垃圾邮,通过在邮件服务器上安装 反垃圾邮件插件、反垃圾邮件网关和在客户端上安装反垃圾 邮件插件,但存在漏报和误报的可能。贝叶斯技术过滤技术 准确性高、误报率低,具有能够根据新来的邮件进行调整自 主学习的能力。将其用用于过滤垃圾邮件是高效经济解决垃 圾邮件的技术之一。
贝叶斯过滤原理
贝叶斯是统计学上用来随机事件A和B的条件概率(或 边缘概率)的一则定理。P (A|B)和P (B|A)用来描述两 个条件概率之间的关系,P (A|B)表示的是在B发生的情况 下A发生的可能性。P (A)称为先验概率,即在B事件发生 之前对A事件概率的一个判断。P (A|B)称为后验概率,即 在B事件发生之后对A事件概率的重新评估。P (B|A) /P (B) 称为”可能性函数”,这是一个调整因子,使得预估概率更 接近真实概率。贝叶斯定理的描述如下[3]:对于一个统计 试验e ,样本中间S是所有可能结果的集合,并且{B1, B2.... Br}是S的一个划分,令{P (A): A?S}表示定义在s 中所有事件上的一个概率分布,则对于s中的任意事件A和 B,都有 P (A) 0, P (B|A) =P ( AB) /P (A)表示条件概 率,贝叶斯定理表示如下:
P (Bi|A) =P (A|Bi) *p (Bi) /P (A) (i=l, 2, 3……,
r)
将贝叶斯算法运用于垃圾邮件过滤时,首先要收集大 量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件 集;其次是提取垃圾邮件集和非垃圾邮件集特征来源中的独 立字符串TOKEN,并统计提取出其出现的次数即字频;第三 是对垃圾邮件和非垃圾邮件个建立一个哈希表,表中是各独 立字符串到字频的映射关系;第四是计算每个哈希表中 TOKEN串出现的概率,根据概率推断出当新来的邮件中出现 某个TOKEN串时,该新邮件为垃圾邮件的概率。同时将新到 达的邮件重新经过贝叶斯过滤器分析,通过使用各个特征来 计算邮件是spam的概率。通过不断的分析,过滤器也不断 地获得自更新。从而使得贝叶斯过滤器就具有了自适应能 力,能够处理新的陌生邮件,所接收到的垃圾邮件数量越多, 准确率就越高
基于朴素贝叶斯算法的垃圾邮件过滤系统
3. 1系统流程
该系统的工作流程是将已知类别的邮件集作为训练样 本,分类器进行训练;当有新的邮件到来时,分类器将该邮 件的特征词与特征词库中的特征词进行匹配,若匹配成功则 记录该词的权重,最后从未知邮件中存在于特征词库的所有 特征词中选取一定数目的单词,将它们权重进行
您可能关注的文档
最近下载
- 15MR105城市道路与开放空间低影响开发雨水设施(OCR).pdf VIP
- 高考数学圆锥曲线常用二级结论.pdf VIP
- 住院患者跌倒护理风险评估与护理指导意见.pdf VIP
- 《放疗副作用及应对》课件.ppt VIP
- GB50209-2010建筑地面工程施工质量验收规范(新).pdf VIP
- 新苏教版六年级科学上册 第一单元《物质的变化》测试卷(A卷).docx VIP
- 新苏教版六年级科学上册第一单元《物质的变化》测试卷及答案.pdf VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 煤矿用防爆电气设备防爆检查标准-培训课件.pptx
- 半导体物理学(第8版)刘恩科课后习题答案解析.pdf
文档评论(0)