sewm2007垃圾邮件过滤系统评测说明.docVIP

下载本文档

5
0
约2.46千字
约 4页
2017-06-08 发布于天津
举报
版权申诉

sewm2007垃圾邮件过滤系统评测说明.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

sewm2007垃圾邮件过滤系统评测说明

SEWM 2007垃圾邮件过滤系统评测说明华南理工大学信息网络工程研究中心 2006年10月 1．评测目的希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台；建立并完善一个以中文为主的大规模邮件数据集。数据集包含正常邮件和垃圾邮件，可作为评测垃圾邮件过滤系统的数据集，该数据集反映最新垃圾邮件特征；提供一个标准的开放垃圾邮件测试工具。该工具可自动向垃圾邮件过滤器发送数据集中的邮件，并且反馈给过滤器该邮件是否是垃圾邮件。 2．数据集说明 2．1概述数据集主要分为两个部分，一部分为公开数据集（Public Corpus），提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库；另一部分为不公开数据集（Private Corpus）作为测评主办单位作为主要评测标准。两个数据集都是由数据文件（data）和索引文件（index）组成。公开数据集以压缩包的方式提供，压缩包文件名为sewm07-spam.zip。压缩包可以用gzip, Winzip以及其他任何可以识别gzip格式的工具解开2．2数据文件数据文件将正常邮件文件混杂在垃圾邮件文件中，文件名无明显特征。文件目录格式为： ../data/000/065 ../data/000/068 ...... ../data/124/077 ../data/124/078 ...... ../data/xxx/yyy 其中xxx为目录名；yyy为邮件文件名，都是以数字命名。每个数据文件都是从现实环境中收集的邮件样本，为RFC 2822格式： Received: from ****** Fri, 29 Jun 2004 17:40:22 -0500 content-class: urn:content-classes:message Subject: ****** Date: ****** Message-ID: ****** MIME-Version: 1.0 Content-Type: text/plain; Content-Transfer-Encoding: binary X-MS-Has-Attach: yes X-MS-TNEF-Correlator: ****** Thread-Topic: ****** X-MimeOLE: Produced By Microsoft Exchange V6.0.4418.65 Thread-Index: ****** From: ****** To: ****** Return-Path: ****** 邮件正文格式参考：（/rfc2822.html） 2．3索引文件（index）索引文件标注了数据文件中的每封邮件文件是否为垃圾邮件。其文件内容格式如下： ham ../data/000/065 ham ../data/000/068 ...... spam ../data/124/077 spam ../data/124/078 ...... spam ../data/xxx/yyy 其中，ham为正常邮件；spam为垃圾邮件。．测试工具包说明提供一个标准的开放垃圾邮件过滤系统测试工具。该工具将垃圾邮件过滤器封装在工具包内，在测试时按次序向垃圾邮件过滤器发送数据集中的邮件文件，邮件文件经过垃圾过滤器过滤之后，工具包根据索引文件反馈给过滤器本次过滤是否正确。被测试的过滤器需要参赛方按照以下四个步骤进行封装： Initialize：安装过滤系统而且设置它处理电子邮件序列的初始值。 Classify：每个邮件信息被评估系统评估时调用一次，过滤器对邮件进行分类。Classify要返回一个有三个组成部分的结果文件resultfile：judgement判断正常邮件还是垃圾邮件 , 分数score 一个实数，数越高代表信息是垃圾邮件的可能性越高 , 和系统信息system info。 Train：每个邮件在被过滤器判断完毕之后，得到index里面对该邮件的是否是垃圾邮件的标注。每个 classify指令应立即跟上train ham 或train spam指令;另外该邮件的标注也写入结果文件resultfile里面。 Finalize：结束并且卸载系统,消除由其指令产生的任何进程，文件或设定。．测评流程测评参与单位在SEWM2007官方网页注册申请下载公开数据集。测评方式可以选择两种：（1）下载公开数据集后，下载测评工具包，将过滤器嵌入到工具包中后上传给主办方来测试。主办单位用不公开数据集测试得到一个测评结果。（2）下载公开数据集后，申请不公开数据集（无index答案部分的），测评参与单位在本地用过滤器将不公开数据集分类后得出结果（以主办方要求的格式输出）后上传给主办