基于中文变形词匹配的贝叶斯邮件过滤模型-杭州电子科技大学.PDFVIP

  • 6
  • 0
  • 约1.33万字
  • 约 4页
  • 2018-04-21 发布于天津
  • 举报

基于中文变形词匹配的贝叶斯邮件过滤模型-杭州电子科技大学.PDF

基于中文变形词匹配的贝叶斯邮件过滤模型-杭州电子科技大学

第 27 卷第 1期    计算机应用与软件 Vo.l27 No.1 2010 年 1月   ComputerApplicationsandSofwtare Jan.2010 汪 霞 郑 宁 徐 明 陈 默 (  3 100 18 )    针对特征词变异的中文垃圾邮件问题, 提出了 一种基于变 特征词匹配还原的新贝叶斯邮件过滤算法。 改进的模型能 自动发现邮件中的变异特征词, 并根据对应的变异类型还原算法将其还原, 避免了变异特征词的匹配逃脱。 算法提高了对于含有拼 音替换、同音字替换、符号插入等变 特征词样本的分类准确率。 实验表明, 改进的过滤算法比普通贝叶斯算法有更好的性能。   贝叶斯 垃圾邮件过滤 变 特征 BAYESIANEMAILFILTERINGMODELBASEDONCHINESEMETAMORPHIC WORDSMATCHING WangXia ZhengNing XuMing ChenMo (SchoolofCompute,rHangzhouDianziUniversit,yHangzhou310018, Zhejiang, China) Abstrac t ThispaperpresentsanewBayesianemailfilteringalgorithmbasedonmetamorphiccharacteristicwordsmatchingandrestoration againsttheproblemofChinesespammailwithcharacteristicwordsvariation.Theimprovedmodelcanautomaticallydetectvariedcharacteristic wordsintheema,ilandrestorethem accordingtocorrespondingrecoveryalgorithmforvariedtype,swhichpreventstheescapeofthevaried characteristicwordsfrommatching.Thealgorithmmelioratestheclassificationaccuracyofthesamplesofmetamorphiccharacteristicwordsin- cludingPinyinsubstitution, homophonesubstitutionandsymbolsinsertion, etc.Theresultofexpermientshowsthattheimprovedalgorithmhas betterperformancethannormalBayesianalgorithm. Keywords  Bayesian Spammailfiltering Metamorphiccharacteristic , , 0   , 。 CCERT , 。 , , 。 1  、 e 。 x C P(C e), 。 。 j j x C C、 C, P(C e), , , j l

文档评论(0)

1亿VIP精品文档

相关文档