垃圾邮件过滤研讨.pptxVIP

  • 7
  • 0
  • 约1.75千字
  • 约 17页
  • 2017-04-10 发布于湖北
  • 举报
小组成员: 马力郝殊宇陈思宇林尹棋李文哲李文强张佳慧目录 Content 文本分析简介 简要介绍文本分析的概念、如何运作、主要功能和应用 贝叶斯垃圾邮件过滤算法原理 介绍贝叶斯算法背后的数学模型与公式 贝叶斯垃圾邮件过滤算法的应用案例 通过实际案例展示让大家加深对该算法的理解 简述与总结 概括贝叶斯算法运作规则,展望垃圾邮件过滤功能的未来 1 Part 文本分析简介 简要介绍文本分析的概念、如何运作、主要功能和应用。 Part 1 文本分析简介 文本分析是指对文本的表示及其特征项的选取,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。 Part 1 文本分析简介 应用: 电子邮件管理 文档管理 自动问答系统 市场研究 情报收集 主要功能: 文本总结 文本分类 文本聚类 关联分析 分布分析 趋势预测 Part 1 文本分析简介 今天,我们主要介绍文本分析在垃圾邮件过滤中的应用,介绍如何通过贝叶斯算法对垃圾邮件进行过滤。 2 Part 贝叶斯垃圾邮件过滤算法原理 介绍贝叶斯算法背后的数学模型与公式。 Part 2 贝叶斯垃圾邮件过滤算法原理 Part 2 贝叶斯垃圾邮件过滤算法原理 √ 基于多项式模型和低风险的贝叶斯垃圾邮件处理主要是利用两个模型,将判别出的垃圾邮件不看作是一个准确事件。再进一步的判别和确定,最终得出一个准确率高的答案。采用贝叶斯多项式模型来对特征项利用率进行改进,同时采用低风险策略来对邮件进行分类。 我们的理解: 3 Part 贝叶斯垃圾邮件过滤算法的应用案例 通过实际案例展示让大家加深对该算法的理解。 Part 3 贝叶斯垃圾邮件过滤算法的应用案例 例如:一封含有“法轮功”字样的垃圾邮件 A 和 一封含有“法律”字样的非垃圾邮件B 根据邮件A生成hashtable_ bad,该哈希表中的记录为 法:1次 轮:1次 功:1次 计算得在本表中: 法出现的概率为0.3 轮出现的概率为0.3 功出现的概率为0.3 根据邮件B生成hashtable_good,该哈希表中的记录为: 法:1 律:1 计算得在本表中: 法出现的概率为0.5 律出现的概率为0.5 综合考虑两个哈希表,共有四个TOKEN串: 法 轮 功 律 Part 3 贝叶斯垃圾邮件过滤算法的应用案例 当邮件中出现“法”时,该邮件为垃圾邮件的概率为: P=0.3/(0.3+0.5)=0.375 出现“轮”时: P=0.3/(0.3+0)=1 出现“功“时: P=0.3/(0.3+0)=1 出现“律”时 P=0/(0+0.5)=0; 由此可得第三个哈希表:hashtable_probability 其数据为: 法:0.375 轮:1 功:1 律:0 当新到一封含有“功律”的邮件时,我们可得到两个TOKEN串,功 律 查询哈希表hashtable_probability可得 P(垃圾邮件| 功)=1 P (垃圾邮件|律)=0 此时该邮件为垃圾邮件的可能性为: P=(0*1)/[0*1+(1-0)*(1-1)]=0 (ps:实际应用时应该不能出现0,否则一项为零会影响全局) 由此可推出该邮件为非垃圾邮件 4 Part 简述与总结 概括贝叶斯算法运作规则,展望垃圾邮件过滤功能的未来 Part 4 简述与总结 简述: 1. 收集大量垃圾邮件和非垃圾邮件,建立二者数据集分类 2. 编码 3. 计算字符串出现概率 4. 自我学习 5. 接收邮件+判断 Part 4 简述与总结 技术 系统 客户端 “错纠率”依旧较高,因此,要过滤垃圾邮件,必须将两种或以上的技术合并使用, 以达到有较好的过滤效果,降低误判率。 今客户端邮件过滤器,重点考虑用户个性化特征,能随时自动地抓捕新垃圾邮件标本,或建立自动生成新的邮件过滤规则。 避免在邮件服务器系统中开放转发功能,在网关这一道重要关口中采用基于硬件的邮件过滤系统,构成可靠的过滤链。 THANKS

文档评论(0)

1亿VIP精品文档

相关文档