快客电邮反垃圾术白皮书.docVIP

下载本文档

0
0
约7.53千字
约 13页
2018-11-30 发布于江苏
举报
版权申诉

快客电邮反垃圾术白皮书.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

快客电邮反垃圾术白皮书

快客电邮反垃圾邮件技术白皮书北京雄智伟业科技有限公司 2007年3月一、反垃圾邮件技术 1.1反垃圾邮件技术已经存在的和在被提及的反垃圾邮件方法试图来减少垃圾邮件问题和处理安全需求。通过正确的识别垃圾邮件，邮件病毒或者邮件攻击程序等都会减少。这些解决方法采取多种安全途径来努力阻止垃圾邮件。 Dr. Neal Krawetz在Anti-Spam Solutions and Security[ref 1]文中将反垃圾邮件技术作了非常好的分类。当前的反垃圾邮件技术可以分为4大类：过滤器（Filter）、反向查询(Reverse lookup)、挑战(challenges)和密码术(cryptography),这些解决办法都可以减少垃圾邮件问题，但是都有它们的局限性。本文将在下面的内容讨论这些技术以及一些主要技术的实现。过滤（Filter）是一种相对来说最简单却很直接的处理垃圾邮件技术。这种技术主要用于接收系统（MUA，如OUTLOOK 或者MTA，如sendmail）来辨别和处理垃圾邮件。从应用情况来看，这种技术也是使用最广泛的，比如很多邮件服务器上的反垃圾邮件插件、反垃圾邮件网关、客户端上的反垃圾邮件功能等，都是采用的过滤技术。关键词过滤技术通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件。比如某些关键词大量出现在垃圾邮件中，如一些病毒的邮件标题，比如：test。这种方式比较类似反病毒软件利用的病毒特征一样。可以说这是一种简单的内容过滤方式来处理垃圾邮件，它的基础是必须创建一个庞大的过滤关键词列表。这种技术缺陷很明显，过滤的能力同关键词有明显联系，关键词列表也会造成错报可能比较大，当然系统采用这种技术来处理邮件的时候消耗的系统资源会比较多。并且，一般躲避关键词的技术比如拆词，组词就很容易绕过过滤。黑名单（Black List）和白名单（White List）。分别是已知的垃圾邮件发送者或可信任的发送者IP地址或者邮件地址。现在有很多组织都在做*bl（block list），将那些经常发送垃圾邮件的IP地址（甚至IP地址范围）收集在一起，做成block list，比如spamhaus的SBL（Spamhaus Block List），一个BL，可以在很大范围内共享。许多ISP正在采用一些组织的BL来阻止接收垃圾邮件。白名单则与黑名单相反，对于那些信任的邮件地址或者IP就完全接受了。目前很多邮件接收端都采用了黑白名单的方式来处理垃圾邮件，包括MUA和MTA，然在MTA中使用得更广泛，这样可以有效地减少服务器的负担。BL技术也有明显的缺陷，因为不能在block list中包含所有的（即便是大量）的IP地址，而且垃圾邮件发送者很容易通过不同的IP地址来制造垃圾。 HASH技术是邮件系统通过创建HASH来描述邮件内容，比如将邮件的内容、发件人等作为参数，最后计算得出这个邮件的HASH来描述这个邮件。如果HASH相同，那么说明邮件内容、发件人等相同。这在一些ISP上在采用，如果出现重复的HASH值，那么就可以怀疑是大批量发送邮件了。基于规则的过滤。这种过滤根据某些特征（比如单词、词组、位置、大小、附件等）来形成规则，通过这些规则来描述垃圾邮件，就好比IDS中描述一条入侵事件一样。要使得过滤器有效，就意味着管理人员要维护一个庞大的规则库。智能和概率系统。广泛使用的就是贝叶斯(Bayesian)算法，可以学习单词的频率和模式，这样可以同垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说，更复杂和更智能化的内容过滤技术。我将在下面详细描述这种在客户端和服务器中使用最广泛的技术。 1.2垃圾邮件算法一般的过滤器尽管实现了自动识别垃圾邮件的功能，但是依然存在一些问题：特征元素列表通过垃圾邮件或者正常邮件获得。因此，要提高识别垃圾邮件的效果，就要从数百邮件中来学习，这降低了过滤器效率，因为对于不同人来说，正常邮件的特征元素是不一样的。获得特征元素分析的邮件数量多少是一个关键。如果垃圾邮件发送者也适应了这些特征，就可能让垃圾邮件更象正常邮件。这样的话，过滤特征就要更改了。每个词计算的分数应该基于一种很好的评价，但是还是有随意性。比如，特征就可能不会适应垃圾邮件的单词变化，也不会适应某个用户的需要。贝叶斯理论现在在计算机行业中应用相当广泛，这是一种对事物的不确定性描述，比如google计算中就采用了贝叶斯理论。贝叶斯算法的过滤器就是计算邮件内容中成为垃圾邮件的概率，它要首先从许多垃圾邮件和正常邮件中进行学习，因此，效果将比普通的内容过滤器更优秀，错报就会更少。贝叶斯过滤器也是一种基于评分的过滤器。但不仅仅是一种简单的计算分数，而更从根本上来识别。它采用自动建立特征表的方式，原理上，首先分析大