- 1
- 0
- 约6.55千字
- 约 35页
- 2017-02-16 发布于湖北
- 举报
SEWM2008中文Web检索评测 闫宏飞 School of EECS, Peking University 4/13/2008 内容 评测任务介绍 Task1:主题网页发现和网页内信息块发现 Task2:非网页数字资源分类 Task3:垃圾邮件过滤 /antispam/ 见华南理工大学,陈彬报告 测试集构建 Task1评测结果 总结 Task1:主题网页发现和网页内信息块发现 包括两个子任务 Task1.1:主题型网页发现 Task1.2:网页内容信息块发现 Task2:非网页数字资源分类 Task2背景 对非网页资源的访问需求首次超过网页信息查找和邮件,成为拉动网民使用互联网的第一因素。[2007.12,CNNIC报告] 非网页资源 通过互联网传播共享 以文件目录为主要存储组织结构 内容独立、构成完整、主题明确。具有一定质量和公共访问需求的数字化实体 Task2研究意义 网络资源现状 数量越来越多 发布和管理是无序的 命名、传播、组织都具有较大随意性 对随意性强的非网页资源的自动组织可应用于数字图书馆、网络教学资源库藏、专题内容管理系统等领域 首要任务:自动分类——给定资源实体的属性,预测其主题类别。 Task2可行性探讨 本次评测提出: 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别 理由: 1
您可能关注的文档
最近下载
- 02S-404 防水套管 标准图集.pdf VIP
- 绵阳市安县2025-2026学年第二学期六年级语文期中考试卷部编版含答案.docx VIP
- 江西省省情省策100-题精选.pdf VIP
- 临床医生年终工作总结8篇.docx VIP
- 数学北师大版八年级下册分式方程.ppt VIP
- 绵阳市安县2025-2026学年第二学期二年级语文期中考试卷(部编版含答案).docx VIP
- 新解读《GB_T 32439 - 2015给水用钢丝网增强聚乙烯复合管道》最新解读.docx VIP
- (公式自动计算)20kV及以下配电网预算书(电子表格版).xls VIP
- 山东省烟台市2025年中考物理真题及答案.docx VIP
- 2024年山东省烟台市中考物理真题卷及答案解析.pdf VIP
原创力文档

文档评论(0)