文本挖掘在垃圾邮件过滤中的应用研究.pdfVIP

文本挖掘在垃圾邮件过滤中的应用研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要 现实世界中,知识不仅以传统数据库的结构化数据的形式出现,更多的也 以报刊、新闻、书籍、研究论文、web页面及电子邮件等多种纷繁复杂的形式出 1 现。据统计,在目前人类所接触的信息世界中,属于非结构化或半结构化 的文 本数据占整个信息量的 80%左右,且以指数级的速度迅速增长。然而对这些非 (半)结构化的数据,原有数据挖掘技术无法进行有效的数据挖掘。在此背景 下,文本挖掘技术应运而生。 文本挖掘技术是以半结构或非结构的自然语言文本为对象的数据挖掘技 术,它是从大规模文本数据集中发现隐藏的、潜在的、新颖的和重要的规律的 过程。 文本挖掘技术应用广泛,文本分类是其重要应用之一。现代互联网飞速发 展的时期,垃圾邮件问题日益严重,成为广大网民感到头疼的一件事情。将文 本分类技术应用于垃圾邮件过滤过程中,对于防止垃圾邮件骚扰,减少垃圾信 息等具有重大的现实意义。 本文从介绍文本挖掘流程开始,主要介绍了文本挖掘的重要应用——文本 分类在垃圾邮件过滤中的应用。详细阐述了贝叶斯、K 最近邻、logitboost、 支持向量机等分类算法的原理和方法。并针对 KNN 分类算法忽略特征之间关系 的缺陷,提出基于向量聚合的改进 KNN 分类算法,然后基于同一数据平台,运 用文本分类的一些评价指标,略加改进,评价各种过滤算法的优劣。 通过比较发现,运用 SVM 分类算法的效果最好,略加改进的朴素贝叶斯算 法在准确度、召回度等方面均优于经典 KNN 算法,且受阈值影响不大,效果较 为稳定。KNN分类算法随着K值的增大,准确度不断降低,且下降幅度较大。基 于向量聚合的改进KNN算法对上述缺陷进行了修正,且通过试验证明确实在 分类效果上有很大提高。为了不断优化,选择最好的参数,文中选择使用网格 搜索法优化参数,在过滤准确度方面体现其优势。 在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数 据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称 之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。 1 关键字:文本挖掘;文本分类;垃圾邮件过滤 2 Abstract In the real world, the knowledge exists not only in the form of structural data, more in other forms, such as paper, web site,books,news and so on.It’s statisticed that 80% of information around us exists in the form of unstructed data,and they are increasing in the speed of exponential level.However,we can’t analyze them in the routine methods because of their special form. In this situation,the technology of text data mining emerge as the times require. Text data mining is one of the data mining technology, which is applied to instructed data. It discovers those potential,latent and important pattern from the

文档评论(0)

文献大师 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档