SEWM2008中文Web检索评测.pptVIP

下载本文档

1
0
约6.55千字
约 35页
2017-02-16 发布于湖北
举报

SEWM2008中文Web检索评测.ppt

SEWM2008中文Web检索评测闫宏飞 School of EECS, Peking University 4/13/2008 内容评测任务介绍 Task1：主题网页发现和网页内信息块发现 Task2：非网页数字资源分类 Task3：垃圾邮件过滤 /antispam/ 见华南理工大学，陈彬报告测试集构建 Task1评测结果总结 Task1：主题网页发现和网页内信息块发现包括两个子任务 Task1.1：主题型网页发现 Task1.2：网页内容信息块发现 Task2：非网页数字资源分类 Task2背景对非网页资源的访问需求首次超过网页信息查找和邮件，成为拉动网民使用互联网的第一因素。[2007.12，CNNIC报告] 非网页资源通过互联网传播共享以文件目录为主要存储组织结构内容独立、构成完整、主题明确。具有一定质量和公共访问需求的数字化实体 Task2研究意义网络资源现状数量越来越多发布和管理是无序的命名、传播、组织都具有较大随意性对随意性强的非网页资源的自动组织可应用于数字图书馆、网络教学资源库藏、专题内容管理系统等领域首要任务：自动分类——给定资源实体的属性，预测其主题类别。 Task2可行性探讨本次评测提出：利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息，合理形成特征，找到适当的分类方法，预测资源的内容类别理由： 1

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

SEWM2008中文Web检索评测.pptVIP