改进KNN算法在垃圾邮件过滤中的应用.pdfVIP

改进KNN算法在垃圾邮件过滤中的应用.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进KNN算法在垃圾邮件过滤中的应用

《现代图书情报技术》# E’ 年# 第$ 期 应用实践 # # 总第+$( 期 ################################################ 改进 ! 算法在垃圾邮件过滤中的应用$ 张俊丽# 张# 帆 (华中师范大学信息管理系# 武汉$%’( ) # # 【摘要】# 提出一种改进的! 算法,并将其用于垃圾邮件的过滤问题。经实验证明,改进的算法能够降 低! 值和训练文本的分布对过滤效果的影响,减少垃圾邮件的误判和漏判,具有较好的过滤性能。 # # 【关键词】# !# 垃圾邮件过滤# 文本分类# # # # 【分类号】# )*%(+ !#$%’$() (* +,-(./0 122 !#3(-$’4, $) 5, 67,$# 8$#’/-$)3 94)3 :;)#$# 94)3 8) (!# $%’( )* +(* )%’$,)( -$($.’( ,/0$12)(. 3)%’$4 5(,6%7,8 ,902$( :;= ,?2,($ ) # # 【!=’-%’ 】# ,- ./01 23245 ,3-! : 43541. 40;/75 (! )01 3-9 01 322=049 .7 0=.45 1236 4630=? ,. ’1 257849 ./3. ./4 3=;750./6 01 =411 14-10.084 .7 ./4 235364.45 ! 3-9 ./4 901.50@.07- 7 ./4 .530-0-; 14. ,/4=21 549@A0-; ./4 601A=31100A3.07- ,3-9 2457563-A41 B4== 0- 4C245064-.1? # # 【1/?(-0= 】# !# D-.0 : 1236 4630=# )4C. A=31100A3.07- [G ] 提出 。应用于邮件过滤中就是将训练文本分为两类, +# 引# 言 一类为合法邮件,一类为非法邮件,在训练文本集合中, # # 目前,常用的垃圾邮件过滤算法主要有三类:黑白名 待测文本找出与其最相似的! 个文本,然后将其中的多 单过滤法、基于规则的方法和基于统计的方法。其中,黑 数文本所属的类别赋给待测文本,从而判断出待测邮件 白名单法是将黑名单地址发出的邮件进行拦阻和过滤, 是否合法。在经典! 算法中,! 值的选择对分类的结 白名单地址发出的邮件判为合法,但在实际应用中,动态 果影响很大,如果! 值过大,则将会使结果偏向于文本数 变化的邮件地址会导致这种方法失效[+];基于规则的过 较多的一类,如果! 值过小(如! T + ),则会降低过滤效 滤方法是通过训练得到显式规则,再利用规则来进行过 果。本文提出对! 算法进行改进,降低! 值和训练文 滤,如J02245 、K4A0107- .544 、H771.0-; 等方法,此类算法的 本的分布对结果的影响,实验证明,改进后的算法能够提 过滤正确率和召回率都在L M 以上,其缺点是在规律性 高邮件过滤系统的稳定性。 不明显的邮件中过滤效果比较差[E ];因此更多学者倾向 E# 系统设计 于基于统计算法的研究。! (! : 43541. 40;/75 )是 一种简单的基于统计的过滤算法,N73A/061 ) 和O0 H37=0 # # 邮件过滤系统的框架如图+ 所示。

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档