- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
sewm2007垃圾邮件过滤系统评测说明
SEWM 2007垃圾邮件过滤系统评测说明
华南理工大学信息网络工程研究中心
2006年10月
1.评测目的
希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台;
建立并完善一个以中文为主的大规模邮件数据集。数据集包含正常邮件和垃圾邮件,可作为评测垃圾邮件过滤系统的数据集,该数据集反映最新垃圾邮件特征;
提供一个标准的开放垃圾邮件测试工具。该工具可自动向垃圾邮件过滤器发送数据集中的邮件,并且反馈给过滤器该邮件是否是垃圾邮件。
2.数据集说明
2.1概述
数据集主要分为两个部分,一部分为公开数据集(Public Corpus),提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)作为测评主办单位作为主要评测标准。两个数据集都是由数据文件(data)和索引文件(index)组成。 公开数据集以压缩包的方式提供,压缩包文件名为sewm07-spam.zip。压缩包可以用gzip, Winzip以及其他任何可以识别gzip格式的工具解开2.2数据文件
数据文件将正常邮件文件混杂在垃圾邮件文件中,文件名无明显特征。文件目录格式为:
../data/000/065
../data/000/068
......
../data/124/077
../data/124/078
......
../data/xxx/yyy 其中xxx为目录名;yyy为邮件文件名,都是以数字命名。
每个数据文件都是从现实环境中收集的邮件样本,为RFC 2822格式:
Received: from ******
Fri, 29 Jun 2004 17:40:22 -0500
content-class: urn:content-classes:message
Subject: ******
Date: ******
Message-ID: ******
MIME-Version: 1.0
Content-Type: text/plain;
Content-Transfer-Encoding: binary
X-MS-Has-Attach: yes
X-MS-TNEF-Correlator: ******
Thread-Topic: ******
X-MimeOLE: Produced By Microsoft Exchange V6.0.4418.65
Thread-Index: ******
From: ******
To: ******
Return-Path: ******
邮件正文 格式参考:(/rfc2822.html)
2.3索引文件(index)
索引文件标注了数据文件中的每封邮件文件是否为垃圾邮件。其文件内容格式如下:
ham ../data/000/065
ham ../data/000/068
......
spam ../data/124/077
spam ../data/124/078
......
spam ../data/xxx/yyy 其中,ham为正常邮件;spam为垃圾邮件。
.测试工具包说明
提供一个标准的开放垃圾邮件过滤系统测试工具。该工具将垃圾邮件过滤器封装在工具包内,在测试时按次序向垃圾邮件过滤器发送数据集中的邮件文件,邮件文件经过垃圾过滤器过滤之后,工具包根据索引文件反馈给过滤器本次过滤是否正确。
被测试的过滤器需要参赛方按照以下四个步骤进行封装:
Initialize:安装过滤系统而且设置它处理电子邮件序列的初始值。
Classify:每个邮件信息被评估系统评估时调用一次,过滤器对邮件进行分类。Classify要返回一个有三个组成部分的结果文件resultfile:judgement判断 正常邮件 还是 垃圾邮件 , 分数score 一个实数,数越高代表信息是垃圾邮件的可能性越高 , 和系统信息system info。
Train: 每个邮件在被过滤器判断完毕之后,得到index里面对该邮件的是否是垃圾邮件的标注。每个 classify指令应立即跟上train ham 或train spam指令;另外该邮件的标注也写入结果文件resultfile里面。
Finalize:结束并且卸载系统,消除由其指令产生的任何进程,文件或设定。
.测评流程
测评参与单位在SEWM2007官方网页注册申请下载公开数据集。测评方式可以选择两种:
(1)下载公开数据集后,下载测评工具包,将过滤器嵌入到工具包中后上传给主办方来测试。主办单位用不公开数据集测试得到一个测评结果。
(2)下载公开数据集后,申请不公开数据集(无index答案部分的),测评参与单位在本地用过滤器将不公开数据集分类后得出结果(以主办方要求的格式输出)后上传给主办
您可能关注的文档
最近下载
- 京东客服客服话术和自动回复语大全.pdf VIP
- 入党志愿书(A4打印版).pdf VIP
- 入党志愿书_打印__电子版__A3A4双面.pdf VIP
- 儿童社会性发展.ppt VIP
- 2025年事业单位工勤技能-重庆-重庆环境监测工一级(高级技师)历年参考题典型考点含答案解析.docx VIP
- 2024年秋季新人教版七年级上册英语全册教案.docx
- 国际税收讲义(人民大学_朱青).ppt VIP
- 2025年事业单位工勤技能-重庆-重庆环境监测工四级(中级工)历年参考题库含答案解析.docx VIP
- 2023年重庆市环境系统事业单位人员招聘考试模拟试题及答案解析.docx VIP
- 2023年重庆市环境系统事业单位人员招聘考试题库及答案解析.docx VIP
原创力文档


文档评论(0)