反垃圾邮件机的研究和实现.pdfVIP

下载本文档

0
0
约8.27千字
约 4页
2017-08-16 发布于安徽
举报
版权申诉

反垃圾邮件机的研究和实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

反垃圾邮件机的研究与实现赖均黄迪明胡德昆 (电子科技大学计算机科学与工程学院，成都610054) 摘要：本文提出了一种基于贝叶斯方法的透明接人／可以分布协作的反垃圾邮件机，讨论了其工作的基本思想及理论依据，并设计出该系统的模块结构。其中特别对该系统的邮件特征提取和自学习机制的理论进行了较为详尽的研究分析。最后，我们讨论了系统实现。关键词：邮件过滤．分类器，特征提取，遗传算法，风险决策，分布式通信件样本的内容的词条(token)进行统计，并得到相 1引言应词条的权值【2]Value(token)，选定概率从大到小从反垃圾邮件联盟的召开和微软的反垃圾大的前二十个词条作为基本特征元。其次，我们将会的召开，我们可以看出世界范围的反垃圾邮件得到的特征元一一邮件原文的出现的顺序为单位的重要性越来越为人们所认识．目前采用了许多组成mZ维的特征向量，再采用遗传算法对特征方法来阻挡垃圾邮件，这对垃圾邮件大量在网络向量进行选择，从而得到最优的邮件特征向量。上游荡起了一定的限制作用，但是仍有许多垃圾再其次，假定邮件特征服从正态分布，把邮件特征邮件通过伪造和欺骗及多路由等手段，使得传统分为两类，通过贝叶斯算法对邮件特征进行有监的方法作用极其有限。因此，我们通过对主要的督的学习，求出邮件特征的整体分布。其后，我们反垃圾邮件机制进行研究的基础上，在此提出一可得在某些邮件特征向量的情况下的邮件分类概种透明的垃圾邮件过滤系统，它着重于对传统的率。最后，我们根据决策风险值计算判决风险，以贝叶斯方法提出改进，并使其实现系统的分布式经验风险最小为准则函数进行风险决策一一基于协作。其特色在于：透明使用遗传算法可分布风险决策的贝叶斯分类器(用于对邮件的分类的协作风险决策。透明性是指我们可以把该反垃判别)。圾邮件机加入网络的任何～个地方。而遗传算法 2．1用遗传算法进行特征提取则提高了传统的基于统计方法垃圾特征提取的可我们把邮件到来事件近似看为马尔柯夫链，适应性，以增强对故意加入非可识别字符的垃圾由此，每次只需对邮件数量一定的队列进行学习，邮件的文本的识别能力。分布式协作，则可以把获得的特征可反映当前的到来的邮件的特征分互联网上的同类邮件机对垃圾邮件的自识别结果布。每阶段学习结束，我们选定最优的11个特征进行通信，再通过统计综合，作为本地的垃圾邮件向量用于对邮件的判别估计。设得到的特征向量 0m 特征对本地邮件进行拦截。为噩∈(中，tjltf2，…，z妇)其中0in+1 本文以下对采用的方法进行较为详细的分析，j“k)f(k)为该类词统计值，tJ为属性词条。,i 和研究；并在最后提出了该系统的实现框架结构，采用算法如下：我们对系统进行了测试，并对实验结果得出了简 (1)令进化代数t=0。略的结论。 (2)给出初始化群体P(t)为特征向量集x= (Tl，T2，．．．，Tk。，)其中s为本阶段学习的邮件 2基于遗传算法特征选择和贝叶斯学习个数，，并令)(异为任一特征向量个体。的自学习功能分析 (3)对P(t)中每个特征向量进行估值，估值本