基于贝叶斯方法垃圾邮件过滤技术综述.docVIP

下载本文档

4
0
约3.93千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

基于贝叶斯方法垃圾邮件过滤技术综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于贝叶斯方法垃圾邮件过滤技术综述

基于贝叶斯方法垃圾邮件过滤技术综述　　摘要：垃圾邮件问题始终困扰着人们，因此一直是当今互联网面临的主要问题之一。许多优秀的文本分类算法被引入垃圾邮件过滤领域，其中包括贝叶斯分类方法。与其他分类方法相比，贝叶斯方法由于其简易实现性，线性计算复杂性、以及准确性成为当今垃圾邮件过滤技术中最流行的方法之一。该文将对基于贝叶斯方法的垃圾邮件过滤技术做出分析和综述，并提出进一步的研究方向。　　关键词：垃圾邮件；信息过滤；贝叶斯方法；文本分类；综述　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2013）14-3280-03 　　随着 Internet 的普及，电子邮件日益得到了广泛的应用，成为日常生活中人与人之间通信交流的重要手段，但是垃圾邮件严重的干扰了人们正常的交流，造成了时空资源的巨大浪费，因此一直以来都受到人们的高度重视。许多在文本分类领域里表现非常优秀的机器学习算法被应用于垃圾邮件过滤技术的相关研究，例如基于规则的Ripper算法[1]、决策树算法[2]、 Boosting算法[2]、粗糙集算法[3]，基于统计的SVM算法[1]、KNN 算法[4]和贝叶斯分类方法[5]等。由于贝叶斯方法的简易性、线性计算复杂性、以及其高精度的结果，该类技术始终是当今垃圾邮件过滤技术中最流行的方法之一。目前垃圾邮件中用到的典型的贝叶斯算法主要有朴素贝叶斯算法（Naive Bayes，NB）、Paul Graham提出的PG贝叶斯算法。该文将主要对这两类贝叶斯算法做出研究综述。　　1 朴素贝叶斯　　1.1 朴素贝叶斯方法的基本原理　　邮件是无结构文本，经过预处理后，可以使用向量空间模型对其进行建模，把它表示成一个文本向量。假设已选定m 个文本特征项，定义特征项集合为[ T={t1，…，tm}] 。特征项可以是特征词、特征词组或者其他属性特征（如特殊符号等）。那么每封邮件文本 [e ] 都可以表示成一个向量 [X=]，其中 [xi] 是属性 [Xi] 的取值，每个属性 [Xi] 都代表一个特征项 [ti] 的在文本 e 中的一些状态信息（如特征项[ti] 是否在文本e 中出现）。　　1.2多元伯努利模型　　1.3 多元高斯模型　　1.4 弹性贝叶斯模型　　1.5 多项式模型　　2 PG贝叶斯　　3 各类贝???斯方法的比较　　Metsis等人曾对各种朴素贝叶斯方法进行了对比试验[10]。采用了公开语料集 Enron-Spam 进行试验。Enron-Spam由6个子集组成，每个子集对应一个用户。实验首先对特征项数目的选取进行了比较实验，令 m 分别取500、1000、3000，实验结果在选取了3000个属性的时候取得最好过滤效果。在选取3000个属性的基础上，对各种朴素贝叶斯方法进行比较，结果显示基于布尔属性的贝叶斯方法取得了最好结果，查全率是97.53%，查准率是97.26% 。Paul Graham 在自己搜集的语料集上验证PG贝叶斯方法，查全率达到99.5%，且没有一个误判。与朴素贝叶斯方法相比，PG贝叶斯方法有两个优势：一是选取特征项的数目不会太多，这就降低了计算复杂度；二是，PG贝叶斯只用“垃圾性”最大的一些特征项来计算邮件属于“垃圾”的概率，这样就能很好的对抗那些为了欺骗过滤器而掺杂了大量正常词汇的垃圾邮件。　　4 总结和展望　　相较于其他方法，贝叶斯方法无论是在计算复杂度上还是在过滤结果上都有很大优势，但是基于贝叶斯方法的垃圾邮件过滤技术却存在着一个局限性：将文本看成是一系列独立特征项的集合，而没有考虑特征项之间的语义关系。因此结合语义的垃圾邮件过滤技术会是未来研究的一个新方向。Santos等人使用增强的基于话题的向量空间模型（enhanced Topic-based Vector Space Model，eTVSM）将文本映射到话题向量空间，考虑了文本的语义关系，然后结合其他机器学习方法进行过滤和判断[11]，在公开语料集Ling-Spam上进行了实验，每种分类器的精确率都高于92% 。然而Ling-Spam的训练集具有话题集中的特点，这可能造成过于乐观的实验结果。Biro等人提出了一种基于主题模型的垃圾网页过滤方法，在垃圾邮件过滤领域尚未发现类似研究。总得来说垃圾邮件过滤是一项长期的斗争，要想通过技术完全根除垃圾邮件，依旧还有很长的路要走。　　参考文献：　　[1] Drucker H，Wu D， Vapnik V N.Support Vector Machines for Spam Categorization[J]. IEEE Transactions on Neural Networks，1999， 20（5）： 1048- 1