- 5
- 0
- 约1.55千字
- 约 14页
- 2017-02-04 发布于辽宁
- 举报
Probability-BasedSpamFiltering.ppt
Weike Pan, etc. SVM based Spam Filtering Probability-Based Spam Filtering 参赛人:欧德宁 报告人:陈军 山东大学 April 13, 2008 OUTLINE 基本思路 方法 结果 遇到的问题以及解决办法 实验软硬件环境 方法 基于开源反垃圾邮件软件jASEN: ,插件机制,每个插件对应一种过滤技术或者一条规则,可以方便地自己添加或者删除。 SVM 分类器: libSVM .tw/~cjlin/libsvm/ 自己写的中文分词软件 系统框架 分数计算方法 使用2种文本分类技术,10种基于规则的技术,共12个插件。 每个插件返回一个分数作为概率[0~1],计算复合概率。设定优先级,当前面几个的结果足够高到确信为垃圾邮件,则不再往下判断。 实验结果 主题的特征全取,正文从后往前取最多30个 subject和信体权重比为2:1 正负样本不平衡对结果的影响:反复测试得到最好的比例(推荐:spam:ham=5:3) SVM 30000维 对2007公开数据集的实验结果 在07公开数据上进行的实验曾得到了非常好的结果(10次交叉验证法,每次取公开数据中的1500:2500 (ham:spam)做测试集,剩下的13500:22500 (ham:spam)做训练集) 遇到的问题及解决办法 乱码和解析错误 删除多
您可能关注的文档
- A1包、视频会议系统设备.doc
- BuildingWebApplicationsWithTheStrutsFrameworkCraig.ppt
- CollaborativeDOMasAWebService.ppt
- enlighten.ppt
- Fromjanepigjanepig@cc.ncu.edu.twMon,2Dec2002.doc
- Ghpc2000高性能计算机是曙光公司退出的一款新产品,主要.doc
- IntroductiontotheDevelopmentofPersonalWebPages.ppt
- JYV-40型.doc
- OverviewofWebProgrammingFundamentalsofStaticWeb.ppt
- WelcometoEFS-WebIndexingTraining.ppt
原创力文档

文档评论(0)