带噪声的文本聚及其在反垃圾邮件中的应用.pdfVIP

带噪声的文本聚及其在反垃圾邮件中的应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
带噪声的文本聚及其在反垃圾邮件中的应用.pdf

摘要 摘要 随着互联网技术的飞速发展,文本数据呈指数级增长。为了获得数据之间的内 在关系及隐含信息,文本挖掘技术应运而生。聚类分析作为数据挖掘的一个重要功 能,在文本挖掘中有着非常重要的作用,本文将讨论带有干扰信息的文本聚类方法。 传统的文本挖掘方法首先将文本表示成向量空间模型;然后用TFIDF权重将文 档转化为向量形式,最后在向量空间模型中计算文本相似度。在传统的向量空间模 型中,由于没有考虑词之间存在的概念相似情况,因此影响了数据聚类的准确性。 因而针对中文提出了一种基于知网模型和语义内积的相似度计算方法。 然而,这一方法却并不适用于垃圾邮件的聚类问题。原因是垃圾邮件发送者经 在邮件编辑完成后,用类似于查找替换的办法,把文本中规范的敏感关键词替换为 另一个用插入符号、改动次序甚至用拼音替代等方法混淆过的、但能被读者理解的 词语,以逃脱邮件处理程序的过滤。如果利用传统的方法则会采取一系列预处理措 施,将会过滤掉干扰信息,这样会使垃圾邮件的相似度计算准确度较低,最终导致 聚类质量效果较差。 针对垃圾邮件含有较多干扰信息而导致相似性度量较差这一问题,本文采用非 类。 避免了分词过程,减少语义损失,保留了所有的文本信息,保证了聚类质量:而本 文通过预处理将文档内容分成中文字符、英文字符串和符号串,减轻数据稀疏问题, 减少了字符的比较次数,从而加快了处理速度。 通过仿真实验与传统的聚类算法进行对比,该聚类质量和效率都有很大改进。 这说明本文提出的聚类算法适合于垃圾邮件聚类,从而提供了一种有效的垃圾邮件 过滤技术。具体思路是利用本文方法将垃圾邮件与合法邮件进行聚类,根据文档相 似度值聚成不同的类别,从而判断出垃圾邮件与合法邮件。 n ABSTRACT ABSTRACT Withthe of textdatais Internet rapiddevelopment technology,thegrowing to orderobtaintheintrinsic betweenthedataand exponentially.In relationship implied information,text asthetimes hasa miningtechnologyemerges require.Clusteranalysis roleintext andhasan featureofdata veryimportant mining important mining.thepaper willdiscussthetext methodwithinterferenceinformation. clustering Traditionaltext methodsfirst tc)(tintoavector mining represent spacemodel; areconvertedtovectorform theTFIDF secondly,documents byusing calculatethetext inthevector model.Traditionalvector model similarity space space don’tconsiderthe the

文档评论(0)

chengben002424 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档