机器学习方法在基于内容的垃圾邮件过滤中的研究-计算机软件与理论专业论文.docxVIP

下载本文档

10
0
约4.09万字
约 45页
2019-04-26 发布于上海
举报
版权申诉

机器学习方法在基于内容的垃圾邮件过滤中的研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

东北大学硕士学位论文东北大学硕士学位论文摘要机器学习方法在基于内容的垃圾邮件过滤中的研究摘要高精度的垃圾邮件过滤技术是最近自然语言处理的研究热点。在这篇论文中我们在有指导机器学习(Supervised Machine Leaming)的框架下使用统计的方法研究垃圾邮件过滤问题。本文系统地研究了不同统计特征选取的方法和特征集大小对常用分类算法·陛能的影响。特别地，本文观察到特征选取函数的重要性随分类器的不同差别很大。以常用的朴素贝叶斯(Naive Bayes)分类器为例，我们观察到其性能在小特征集上受特征选取函数影响很大。支撵向量机(Support Vector Machine)， AdaBoost和最大熵模型在邮件分类上取得了很好的效果：对特征选取函数不敏感，很容易扩展到高维特征空间，在不同测试集上的分类效果稳定。此外，试验还表明简单的“Bag ofWords”过滤模型对垃圾邮件过滤有很好的效果，尤其拥有与语言无关的特性一我们对中文语料进行了简单的预处理(分词)之后就取得了很好的分类效果。试验中还发现邮件信头中的特征对分类效果有显著影响。在仅使用邮件信头中的特征的情况下，我们在四个测试语料上取得了98％的分类准确率。这意味着邮件信头的特征可以被用作有效垃圾邮件过滤特征。关键词文本分类垃圾邮件过滤机器学习东北大学硕士学位论文东北大学硕士学位论文 ABSTRACT Content·-based Anti·-Spam Filtering： the Machine Learning Approach ABSTRACT High performance Anti—Spam filtering techniques have been the focus of recent Natural Language Processing research In this thesis，we addressed the problem of content—based Anti-Spam filtering under the machine—learning framework． In particular,we studied the 1mpact of different feature pruning methods．and various feature set sizes on several statistical classifiers’performance using several public available COrpOVa We observed that the significance of feature selection varies greatly from classifier to classifier．Naive Bayes，a commonly used classifier in spam filtering，was found to be sensitive to feature selection methods on small feature set SVM．AdaBoost and Maximum Entropy Model performed as good as fine tuned Naive Bayes leamer,sharing similar characteristics：not sensitive to feature selection strategy，easily scalable to very high feature dimension and stable performances across different data sets．Furthermore．we concluded that the simple、’bag of words” filtering model can be effective in spam filtering task，with the language independence of this model being verified on a Chinese sparta COmUS A rather striking finding is the effect of mail headers on spare filtering，which was often ignored in previo