sogout语料库构建–查询语料-thuir.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
sogout语料库构建–查询语料-thuir

海量规模网络信息检索评测语料库的设计与实现 清华大学智能技术与系统国家重点实验室 清华—搜狐搜索技术联合实验室 刘奕群 马少平 张扬 茹立云 2008年11月16日 研究背景 多少人在使用搜索引擎 全球范围内84%的互联网用户使用搜索引擎,其中超过一半的人几乎每天使用。 95%以上的中国网民使用过搜索引擎,84.5%的用户将搜索引擎作为得知新网站的主要途径。 商用搜索引擎竞争日趋激烈(市场规模约56亿元)。 从2007年9月开始,中国成为全球首个每月搜索请求超过100亿次的国家 研究背景 搜索引擎与性能评价 对搜索引擎用户:选择最有效获取信息的媒介 对广告商:选择最有效的盈利平台 对研究人员:算法改进、性能监控 效果评价是信息检索相关研究的基础内容 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与它们的效果评价方式是合二为一的。 (Saracevic, 1995) 研究背景 如何对网络信息检索系统进行评价 Cranfield评价方法 被应用在包括TREC在内的几乎所有 主流的信息检索研究工作中。 评价组成 (核心:评价语料库) 文本语料,查询语料,标注语料 Cranfield评价方式的优势 有效控制系统变量 可以跨系统比较的评价结果 研究背景 网络信息检索评测语料库 建立评测语料库的必要性 信息检索是实证学科 真实规模的评测语料是算法有效性的保证 研究人员各自独立构建存在困难 海量网络资源抓取 真实用户需求获取 大规模用户查询的答案标注 建立评测语料库的可能性 产业界与研究界的合作 搜索引擎日志被合理应用 已有的评测语料库相关研究 文本信息检索会议(TREC) NIST组织的研讨文本检索技术的国际性论坛 大规模文本检索系统的标准评测平台 与网络信息检索相关的评测语料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 已有的评测语料库相关研究 863中文信息处理与智能人机接口评测 语料库规模 30G 数据 30个查询,pooling方式确定答案 4个系统参加评测 现场评测 参与系统少 侧重系统稳定性和效率 已有的评测语料库相关研究 SEWM评测 北京大学网络实验室组织 类似TREC的评测架构 文本语料库:CWT100g, CWT200g 去重、去除垃圾,37M网页 查询语料库:来自天网查询日志 2005-2007 三年的时间 1185 导航类查询 285 信息类查询 标注方式:人工标注,pooling方法 已有的评测语料库相关研究 经验总结 文本语料 抓取相对高质量的网络数据 VLC2 = WT10g,.GOV, .GOV2, CWT200g 查询语料 真实反映用户需求 TREC Web, Terabyte, SEWM 标注语料 规模保证 TREC million query track: efficiency, not effectiveness 已有的评测语料库相关研究 主要困难 文本语料库构建 规模问题 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 与中文用户实际需求量匹配:100 Million量级 达到100 Million/Terabyte量级,保证研究成果的可信性 网页质量筛选 网页质量相对较高:重复语料、垃圾语料的处理。 辅助语料的构建问题 链接关系语料 点击日志信息 网络信息检索评测集合 主要困难 查询语料库构建 规模问题 有充分的代表性 考虑到标注工作量 查询样例选择 真实用户需求 有充分的代表性 覆盖不同用户信息需求 已有的评测语料库相关研究 主要困难 标注语料库构建 Voorhees 估计,对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 TREC提出pooling方法,在保证评价结果可靠性的基础上大大减少了评判工作量 缺点:处理的查询数目少,针对小规模的查询集合,仍需要耗费十余名标注人员1-2个月的工作时间 SogouT语料库构建 设计思路 海量规模、符合大多数研究机构的处理能力 能够代表中文互联网的基本情况 能够代表中文搜索引擎用户的需求情况 客观全面评价网络信息检索系统性能 实现思路 利用搜索引擎资源 网页抓取、查询日志获取、网页质量评估数据获取 使用自动化的查询语料标注方法 SogouT语料库构建

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档