- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垃圾邮件过滤系统.ppt
垃圾邮件过滤系统 1、什么是垃圾邮件? 垃圾邮件过滤 2、什么是过滤?如何过滤? 垃圾邮件的定义 垃圾邮件是指向未主动请求的用户发送的电子邮件如广告、刊物或其他资料;或没有明确的退信方法、发信人、回信地址等的邮件;或者利用网络从事违反网络服务供应商的安全策略或服务条款的行为和其他预计会导致投诉的邮件。 垃圾邮件的防范 现在,采用的反垃圾邮件技术主要从三个方面来防范 垃圾邮件:邮件发送方、邮件传输过程、邮件接收方。采用 的主要技术有: 1、邮件服务系统的安全加固:主要措施有增强邮件服务器 的安全性、提供邮件服务安全身份认证、添加反垃圾 邮件的专用设备或插件等。 2、邮件过滤技术。主要技术有基于规则(如IP地址、域名、 邮件地址等)和基于统计的过滤方式(基于邮件内容过 滤)。 3、提高发送垃圾邮件成本,从源头上阻止垃圾邮件的产 生。主要技术有电子邮票、Challenge-Response, SPE (sender policy framework)等。 过滤 过滤就是分类。 信息过滤(Information filtering)是一个十分广泛的概念。有人定义信息过滤为:根据用户的信息需求对动态数据流进行过滤,仅仅把满足用户需求的信息传送给用户,以提高获取信息的效率。这种定义主要是着重于信息检索方面,他们主要研究的问题在于信息的自动分类、文本文摘自动化,以及Web数据的检索等问题。 信息过滤所需要解决这样几个问题 1.如何获取信息。 2.信息如何进行表示。 3.根据什么样的规则和方法来处理信息。 4.信息相似度如何计算。 5.匹配规则的自动生成。 其中信息表示是系统的基础部分,信息表示 的好坏将直接影响到其他的几个方面,因为它决 定了信息处理的方法、规则的生成等。 信息过滤在文档类信息中的应用就是将文档内容按照一定的表示方法如向量空间模型进行整理后,采用文本分类的方法进行信息过滤。 文本分类的算法有基于概念的文本分类算法、贝叶斯分类方法、K-最近邻接分类算法、基于语义网络的概念推理网分类方法和向量空间法等。我们主要采用的是贝叶斯分类方法。 贝叶斯分类方法 贝叶斯分类算法是一种广泛应用的分类算法,应用于文本分类时,通过计算文本属于每个类别的概率P(cj|dx),将该文本归为概率最大的一类,计算P(cj|dx)时利用贝叶斯公式。简单贝叶斯分类算法即Naive Bayesian,它建立在“贝叶斯假设”的基础之上:假设所有的特征之间互相独立。实际上,在生活中这种独立性很难存在,但从目前的实验结果看来,基于这个假设的简单贝叶斯分类算法的效果很好,而且计算简单,因此在很多场合得到适用。 Graham使用Naive Bayesian过滤垃圾邮件的理论 算法说明 我们之所以选择贝叶斯算法,原因是由于该 算法的优点在于: 1、实现简单; 2、贝叶斯模型能够自我纠正。 特征概率的算法 对于训练集中的一个特征w: b(w)=含有特征w的垃圾邮件数量/总的垃圾邮件 的数量; g(w)=含有特征w的合法邮件数量/总的合法邮件的数量; 特征w概率f(w)的计算: 邮件特征联合概率的算法 在过滤过程中,对于进入过滤的邮件,我们要根据训练的结果和该邮件的特征表示,给该邮件一个综合的判定值,即联合概率。然后根据设定的阈值,判定此邮件是垃圾邮件还是合法邮件。 计算方法如下: 本垃圾邮件过滤系统的工作说明 垃圾邮件过滤系统的系统流程图 : 模式匹配:接受特征提取中后的信息,根据规则数据库中的规则,按照某种相似度计算算法计算信息与实际需求的相关性,在达到一定的阀值后,输出过滤的结果。 信息表示:提供对过滤后的邮件的浏览,以及对过滤效果的评价。 模式匹配阶段分为两个阶段:训练和测试。 训练阶段主要是训练规则库,提取spam和ham的 特征;主要分三步: 解析邮件和提取特征; 测试阶段是利用已训练完成的规则库,对邮件进行 判断。并向用户提交结果。 其过滤过程为: 对于新的邮件,提取邮件的特征,通常是最能代表 邮件内容的若干个特征(这里的特征应该是它们的垃圾邮 件指示性概率远离0.5的),通过哈希表hash-spamminess 计算这封新邮件的联合概率(combin
文档评论(0)