sewm2007垃圾邮件过滤系统评测说明.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
sewm2007垃圾邮件过滤系统评测说明

SEWM 2007垃圾邮件过滤系统评测说明 华南理工大学信息网络工程研究中心 2006年10月 1.评测目的 希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台; 建立并完善一个以中文为主的大规模邮件数据集。数据集包含正常邮件和垃圾邮件,可作为评测垃圾邮件过滤系统的数据集,该数据集反映最新垃圾邮件特征; 提供一个标准的开放垃圾邮件测试工具。该工具可自动向垃圾邮件过滤器发送数据集中的邮件,并且反馈给过滤器该邮件是否是垃圾邮件。 2.数据集说明 2.1概述 数据集主要分为两个部分,一部分为公开数据集(Public Corpus),提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)作为测评主办单位作为主要评测标准。两个数据集都是由数据文件(data)和索引文件(index)组成。 公开数据集以压缩包的方式提供,压缩包文件名为sewm07-spam.zip。压缩包可以用gzip, Winzip以及其他任何可以识别gzip格式的工具解开2.2数据文件 数据文件将正常邮件文件混杂在垃圾邮件文件中,文件名无明显特征。文件目录格式为: ../data/000/065 ../data/000/068 ...... ../data/124/077 ../data/124/078 ...... ../data/xxx/yyy 其中xxx为目录名;yyy为邮件文件名,都是以数字命名。 每个数据文件都是从现实环境中收集的邮件样本,为RFC 2822格式: Received: from ****** Fri, 29 Jun 2004 17:40:22 -0500 content-class: urn:content-classes:message Subject: ****** Date: ****** Message-ID: ****** MIME-Version: 1.0 Content-Type: text/plain; Content-Transfer-Encoding: binary X-MS-Has-Attach: yes X-MS-TNEF-Correlator: ****** Thread-Topic: ****** X-MimeOLE: Produced By Microsoft Exchange V6.0.4418.65 Thread-Index: ****** From: ****** To: ****** Return-Path: ****** 邮件正文 格式参考:(/rfc2822.html) 2.3索引文件(index) 索引文件标注了数据文件中的每封邮件文件是否为垃圾邮件。其文件内容格式如下: ham ../data/000/065 ham ../data/000/068 ...... spam ../data/124/077 spam ../data/124/078 ...... spam ../data/xxx/yyy 其中,ham为正常邮件;spam为垃圾邮件。 .测试工具包说明 提供一个标准的开放垃圾邮件过滤系统测试工具。该工具将垃圾邮件过滤器封装在工具包内,在测试时按次序向垃圾邮件过滤器发送数据集中的邮件文件,邮件文件经过垃圾过滤器过滤之后,工具包根据索引文件反馈给过滤器本次过滤是否正确。 被测试的过滤器需要参赛方按照以下四个步骤进行封装: Initialize:安装过滤系统而且设置它处理电子邮件序列的初始值。 Classify:每个邮件信息被评估系统评估时调用一次,过滤器对邮件进行分类。Classify要返回一个有三个组成部分的结果文件resultfile:judgement判断 正常邮件 还是 垃圾邮件 , 分数score 一个实数,数越高代表信息是垃圾邮件的可能性越高 , 和系统信息system info。 Train: 每个邮件在被过滤器判断完毕之后,得到index里面对该邮件的是否是垃圾邮件的标注。每个 classify指令应立即跟上train ham 或train spam指令;另外该邮件的标注也写入结果文件resultfile里面。 Finalize:结束并且卸载系统,消除由其指令产生的任何进程,文件或设定。 .测评流程 测评参与单位在SEWM2007官方网页注册申请下载公开数据集。测评方式可以选择两种: (1)下载公开数据集后,下载测评工具包,将过滤器嵌入到工具包中后上传给主办方来测试。主办单位用不公开数据集测试得到一个测评结果。 (2)下载公开数据集后,申请不公开数据集(无index答案部分的),测评参与单位在本地用过滤器将不公开数据集分类后得出结果(以主办方要求的格式输出)后上传给主办

文档评论(0)

cynthia_h + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档