SEWM2009中文Web检索评测.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
江西师范大学,罗文兵,jxnulwb@126.com,jxnulwb@ 大连理工大学,苏绥,susui@, susui@ * [Ben, et al.,2006] C. Ben, A. James, and S. Ramesh, Minimal test collections for retrieval evaluation, in Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. Seattle, Washington, USA: ACM, 2006. The main advantage of EMAP over standard MAP is that it takes advantage of information provided by nonrelevance. * * SEWM2009中文Web检索评测 闫宏飞 School of EECS, Peking University 5/24/2009 内容 评测任务介绍 测试集构建 评测结果 总结 * Dataset * Hardware assumptions in 2007 symbol statistic value s average seek time 5 ms = 5 x 10?3 s b transfer time per byte 0.02 μs = 2 x 10?8 s processor’s clock rate 10 ?9 s p low level operation 0.01 μs = 10?8 s (e.g., compare swap a word) size of main memory several GB size of disk space 1 TB or more 海量查询 目标 评价中文Web检索系统的性能, 从而发现有效的检索方法。 研究评测系统的稳定性、高效性和可重用性 测试集使用框架 CWT200g/CWT20g文档集 CWT200g 根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础 容量:197GB 覆盖29,100个网站,37,482,913个网页 网页本身是压缩保存, 以天网格式保存 CWT20g文档集 是CWT200g文档集的一部分 与CWT200g采用相同主题集,答案集不一样 构建查询集策略(1/2) 参照了TREC Million Query Track的Topic Guidelines 从网络搜索引擎中获取一部分,根据track不同而可能会有变化 每一个query在GOV2中至少要有一个相关的页面 题目一半短一半长:短的有1~5个词,长的6~20个;一半gov-heavy, 一半gov-biased. gov-heavy是指在该query被返回结果后,用户点击了很多结果,gov-biased正好相反 Million Queries Track提供了(10,000) queries进行测试 (against 426GB GOV2 collection), 其中有重复 构建查询集策略(2/2) 在Sogou用户日志的基础上,统计出查询的一些数值分布情况,并使得测试查询集模仿实际分布,具体如下: 查询词长短/复杂程度分布: 查询词程度分布: 对于某一查询用户的点击量分布: 导航查询/信息查询类型分布: 查询词条内容的分布 Sogou User Log 数据格式为 用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 查询数量,对应文件(共45,000,000) 1415651 access_logdecode.filter 1456061 access_logdecode.filter ……. 1294980 access_logdecode.filter SogouQ.sample 9008533481548073 [acd+see+软件下载] 9 1 /acd-see-6.0.php 10360096149091108 [dat+文件的打开工具] 7 1 /rjsy/html/06052502245.htm 490427183816

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档