SEWM2007中文web检索评测报告.ppt

第五届全国搜索引擎和网上信息挖掘学术研讨会 SEWM 2007 中文web检索评测报告 /sundae_meng 内容提纲 评测目标 系统设计 实验结果 未来工作 /sundae_meng 评测目标 主题提取(TD) 查找主题相关的关键资源的入口 导航搜索 (HPNP) HP 查找指定名字的网站的首页 NP 查找指定名字的页面 /sundae_meng 主题提取 TD 任务分析 不能按照网页相似度大小来判断 站点是从一组相关网页的入口 网页深度一般不会大于4 /sundae_meng 导航搜索 导航搜索 (HPNP) 主页查找 检索返回的相关网页可能只来源于某几个网站 主页大部分是以“/”结尾,或者结尾包含“index”,“default”单词 指定页面查找 一般可以按照网页的检索评分得到结果 查询任务和网页的title基本一致 /sundae_meng 系统设计 解压缩 查询任务分析 CWT200g 分析网页 分词 预处理 TD/HPNP 初次排序结果 检索 建立索引 二次检索 /sundae_meng 系统设计 分析网页 去掉冗余信息,只保留title和body的标签内容 分词 北大天网提供的CHSeg分词程序 统计词频 /sundae_

文档评论(0)

1亿VIP精品文档

相关文档