SEWM2.007中文Web检索评测.pptVIP

  • 0
  • 0
  • 约3.63千字
  • 约 21页
  • 2018-05-29 发布于湖北
  • 举报
SEWM2.007中文Web检索评测.ppt

* 用户有时候会用名称来查询特定的网页。在这种情况下,一个有效的检索系统将在第一个或前几个返回结果中给出那个网页。 这项任务是两个子任务的组合:HP查询和NP查询。这两种情况下,查询结果只有一个并且用户的查询需求常常是页面的名称。不同的是HP查询的目标是一个通常是一个网站的主页,而指定页面查询所找到的可以不是一个主页,而是满足用户需求的特定页面。 评判规则为:判断参与者返回文档的URL是否为最初选定文档的URL。当然,如果页面有两个不同的URL,那么这两个都将被认为是正确的答案。通过第一个正确答案的位置对系统进行比较。以第一个正确答案出现位置的倒数平均值(MRR)为评估准则。 * 自从1950年代末期Cranfield实验开始,测试集(test collection)就包括文档集(documents)、查询集(queries)和相关结果集(relevance judgments)三个部分[Cleverdon,1991]。为了尽量做到有代表性,文档集的规模越来越大。由于Web本身具有包含信息的广泛性,和获取信息的便利性,现在大规模的测试集一般都基于Web来建设,称为Web测试集。Web测试集设计中最基本的问题是:文档集能否真正代表所要研究的对象(此处即Web)?此问题 可以扩展为三个问题[Kennedy,1998],[黄昌宁 and 李涓子,2002]:文档集应当是静态样本还是动态样本?在多大程度上可以成为研究对象的代表?为了使文档集能满足通用的或特定的研究目标,总体规模应当有多大? should the documents be sampled statically or dynamically? to what extent the documents represent its superset what is the suitable size for a document set satisfying both IR goals * 保留了56主题(答案数=4) * 可能的原因分析: 1.SEWM2007相关答案构建比较严格; 2.SEWM2007主题难度比SEWM2006较大; * 现象: 1.有的主题在pool的深度很浅时就没有相关答案了,而有的query则可以随着pool深度的增加不断有新的答案出现 比如:230,259,266,268,270,272,275,277等是前面一种情况。 2.如果继续找答案的话,有较多相关答案的主题容易有新的答案出现。 从这里可以看出,为了节省评测所耗费的资源,可以采取更好的办法——不同的topic采用不同的pool深度,取决于单个主题的相关文档数。但这也有一定的困难,比如:没有进行相关判断之前无法预测一个主题有多少个相关答案;人们直觉的觉得一个主题的宽窄与测试集中的实际情况可能不一致等问题。 * * SEWM2007中文 Web检索评测 李静静, ljj@net.pku.edu.cn 北京大学网络实验室 2007-03 * fgfh 提纲 评测任务介绍 CWT200g测试集构建 评测结果 总结 * fgfh 评测任务之一:主题提取(Topic Distillation) 对于一个特定主题发现一组关键资源 注重以站点作为资源的查询 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示) 判断是否一个好的入口页面,应该考查结果是否符合下面三个条件: 是否大部分切合主题; 提供主题的可靠的信息; 不是一个更大的切合主题站点的一部分 * fgfh 评测任务之二:导航搜索(Navigation search) 主页查询(Home Page finding,HP) 通常是一个网站的主页 指定页面查询(Named Page finding,NP) 满足用户需求的特定页面 评测准则 第一个正确答案出现位置的倒数平均值(MRR) * fgfh 测试集使用框架 * fgfh CWT200g文档集 CWT200g 根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础 容量:197GB 覆盖29,100个网站,37,482,913个网页 网页本身是压缩保存, 以天网格式保存 * fgfh Topic 示例:主题提取(TD) top numNumber:TD217 title体育新闻/title descDescription: 足球,篮球,奥运,亚运等等的新闻报道 /top * fgfh Topic 示例:导航搜索(HP/NP) top numNumber:NP890 title中国政法大学学工部/title /top top numNumber:NP1145 title政府网站2005年十件大事/title /top * f

文档评论(0)

1亿VIP精品文档

相关文档