Probability-BasedSpamFiltering.pptVIP

  • 5
  • 0
  • 约1.55千字
  • 约 14页
  • 2017-02-04 发布于辽宁
  • 举报
Probability-BasedSpamFiltering.ppt

Weike Pan, etc. SVM based Spam Filtering Probability-Based Spam Filtering 参赛人:欧德宁 报告人:陈军 山东大学 April 13, 2008 OUTLINE 基本思路 方法 结果 遇到的问题以及解决办法 实验软硬件环境 方法 基于开源反垃圾邮件软件jASEN: ,插件机制,每个插件对应一种过滤技术或者一条规则,可以方便地自己添加或者删除。 SVM 分类器: libSVM .tw/~cjlin/libsvm/ 自己写的中文分词软件 系统框架 分数计算方法 使用2种文本分类技术,10种基于规则的技术,共12个插件。 每个插件返回一个分数作为概率[0~1],计算复合概率。设定优先级,当前面几个的结果足够高到确信为垃圾邮件,则不再往下判断。 实验结果 主题的特征全取,正文从后往前取最多30个 subject和信体权重比为2:1 正负样本不平衡对结果的影响:反复测试得到最好的比例(推荐:spam:ham=5:3) SVM 30000维 对2007公开数据集的实验结果 在07公开数据上进行的实验曾得到了非常好的结果(10次交叉验证法,每次取公开数据中的1500:2500 (ham:spam)做测试集,剩下的13500:22500 (ham:spam)做训练集) 遇到的问题及解决办法 乱码和解析错误 删除多

文档评论(0)

1亿VIP精品文档

相关文档