垃圾邮件过滤系统-CWIRF----中文Web信息检索论坛.ppt

下载文档 降价啦

8
0
约3.01千字
约 18页
2017-04-10 发布于天津
举报
版权申诉
保障服务

垃圾邮件过滤系统-CWIRF----中文Web信息检索论坛.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

垃圾邮件过滤系统 1、什么是垃圾邮件？垃圾邮件过滤 2、什么是过滤？如何过滤？垃圾邮件的定义垃圾邮件是指向未主动请求的用户发送的电子邮件如广告、刊物或其他资料;或没有明确的退信方法、发信人、回信地址等的邮件;或者利用网络从事违反网络服务供应商的安全策略或服务条款的行为和其他预计会导致投诉的邮件。垃圾邮件的防范现在，采用的反垃圾邮件技术主要从三个方面来防范垃圾邮件:邮件发送方、邮件传输过程、邮件接收方。采用的主要技术有： 1、邮件服务系统的安全加固:主要措施有增强邮件服务器的安全性、提供邮件服务安全身份认证、添加反垃圾邮件的专用设备或插件等。 2、邮件过滤技术。主要技术有基于规则(如IP地址、域名、邮件地址等)和基于统计的过滤方式(基于邮件内容过滤)。 3、提高发送垃圾邮件成本，从源头上阻止垃圾邮件的产生。主要技术有电子邮票、Challenge-Response, SPE (sender policy framework)等。过滤过滤就是分类。信息过滤(Information filtering)是一个十分广泛的概念。有人定义信息过滤为:根据用户的信息需求对动态数据流进行过滤，仅仅把满足用户需求的信息传送给用户，以提高获取信息的效率。这种定义主要是着重于信息检索方面，他们主要研究的问题在于信息的自动分类、文本文摘自动化，以及Web数据的检索等问题。信息过滤所需要解决这样几个问题 1.如何获取信息。 2.信息如何进行表示。 3.根据什么样的规则和方法来处理信息。 4.信息相似度如何计算。 5.匹配规则的自动生成。其中信息表示是系统的基础部分，信息表示的好坏将直接影响到其他的几个方面，因为它决定了信息处理的方法、规则的生成等。信息过滤在文档类信息中的应用就是将文档内容按照一定的表示方法如向量空间模型进行整理后，采用文本分类的方法进行信息过滤。文本分类的算法有基于概念的文本分类算法、贝叶斯分类方法、K－最近邻接分类算法、基于语义网络的概念推理网分类方法和向量空间法等。我们主要采用的是贝叶斯分类方法。贝叶斯分类方法贝叶斯分类算法是一种广泛应用的分类算法，应用于文本分类时，通过计算文本属于每个类别的概率P(cj|dx),将该文本归为概率最大的一类，计算P(cj|dx)时利用贝叶斯公式。简单贝叶斯分类算法即Naive Bayesian，它建立在“贝叶斯假设”的基础之上：假设所有的特征之间互相独立。实际上，在生活中这种独立性很难存在，但从目前的实验结果看来，基于这个假设的简单贝叶斯分类算法的效果很好，而且计算简单，因此在很多场合得到适用。 Graham使用Naive Bayesian过滤垃圾邮件的理论 Paul Graham于2002年8月发表了一篇文章：A Plan for Spam，在文章中Graham提议建立垃圾邮件和非垃圾邮件单词的贝叶斯概率模型。其大体思想是，在已知的垃圾邮件中，一些单词出现的频率较高。运用一些众所周知的数学知识，对于每个特征，可以生成一个“垃圾邮件指示性概率” (spamminess probability)。根据邮件中所包含的一组词，可以用另一个简单的数学公式来确定文本邮件的“整体垃圾邮件概率”(combined probability)，也称邮件的联合概率。算法说明我们之所以选择贝叶斯算法，原因是由于该算法的优点在于： 1、实现简单； 2、贝叶斯模型能够自我纠正。特征概率的算法对于训练集中的一个特征w： b(w)＝含有特征w的垃圾邮件数量/总的垃圾邮件的数量； g(w)＝含有特征w的合法邮件数量/总的合法邮件的数量；特征w概率f(w)的计算：上式中： n：含特征w的邮件数量； s：一个常数参量，通常为1； x：当n＝0时，我们需要假设的常量，也是特征w的概率，通常设为0.5； p(w)是Graham方法对特征概率的估计。邮件特征联合概率的算法在过滤过程中，对于进入过滤的邮件，我们要根据训练的结果和该邮件的特征表示，给该邮件一个综合的判定值，即联合概率。然后根据设定的阈值，判定此邮件是垃圾邮件还是合法邮件。计算方法如下： A,B,C,...,N代表了各个特征的在哈