- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 卷增刊 大 连 理 工 大 学 学 报 !
! 5’6! 7# ’6
88
年 月 92/
#$$ %$ !#$%’()’*%+%*,-$.*/ (1-23%’ #$$
0 40
文章编号! !
%$$$’()$( #$$*’*%(0’$+
中文垃圾邮件过滤系统的实现和评估
% % #
李 星 ! 田 莹 ! 段 海 新
# # # #
! 清华大学 新一代网络技术与应用实验室北京 #
%, %$$$(!
#
#,清华大学 信息网络工程研究中心北京 %$$$(!$
#
摘要!
垃圾邮件是长期以来困扰电子邮件使用者的一个问题反垃圾邮件技术除了可以抑制垃圾邮件
对反垃圾短信和垃圾 电话等问题也有借鉴意义 为此对使用贝叶斯方法过滤垃圾邮件进行了介
Q?-. ,
绍阐述了中文垃圾邮件过滤系统的实现并给出了评估结果 结果表明在过滤中计算最终概率的特征
,
数目以及用于训练的样本个数都存在某个最优值当用于训练的样本个数逐渐超过这个最优值时过滤
效果会略微下降并趋于一致,
关键词!垃圾邮件#贝叶斯#过滤器
中图分类号! 文献标识码!
E.F0F,$0( D
B 引 言 目前还没有看到针对中文垃圾邮件过滤系统的论文
# #
发表 对于中文垃圾邮件过滤问题#与英文垃圾邮
,
垃圾邮件具有以下两个特点$大规模群发#用户
件过滤算法比较#不同之处就在于多了中文分词的
’
%
不想接收 垃圾邮件的危害有很多$它占用了大量
, 问题,把中文的汉字序列切分成有意义的词#就是
的带宽资源#严重时甚至拥塞整个 链路#中
-:9@:9
中文分词#有些人也称之为切词
文档评论(0)