文本语料库 - 清华大学智能技术与系统国家重点实验室信息检索组.pptVIP

  • 42
  • 0
  • 约5.84千字
  • 约 41页
  • 2017-09-03 发布于天津
  • 举报

文本语料库 - 清华大学智能技术与系统国家重点实验室信息检索组.ppt

文本语料库 - 清华大学智能技术与系统国家重点实验室信息检索组

海量规模网络信息检索评测语料库的设计与实现 清华大学智能技术与系统国家重点实验室 清华—搜狐搜索技术联合实验室 刘奕群 马少平 张扬 茹立云 2008年11月16日 研究背景 多少人在使用搜索引擎 全球范围内84%的互联网用户使用搜索引擎,其中超过一半的人几乎每天使用。 95%以上的中国网民使用过搜索引擎,84.5%的用户将搜索引擎作为得知新网站的主要途径。 商用搜索引擎竞争日趋激烈(市场规模约56亿元)。 从2007年9月开始,中国成为全球首个每月搜索请求超过100亿次的国家 研究背景 搜索引擎与性能评价 对搜索引擎用户:选择最有效获取信息的媒介 对广告商:选择最有效的盈利平台 对研究人员:算法改进、性能监控 效果评价是信息检索相关研究的基础内容 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与它们的效果评价方式是合二为一的。 (Saracevic, 1995) 研究背景 如何对网络信息检索系统进行评价 Cranfield评价方法 被应用在包括TREC在内的几乎所有 主流的信息检索研究工作中。 评价组成 (核心:评价语料库) 文本语料,查询语料,标注语料 Cranfield评价方式的优势 有效控制系统变量 可以跨系统比较的评价结果 研究背景 网络信息检索评测语料库 建立评测语料库的必要性 信息检索是实证学科 真实规模的评测语料是算法有效性的保证 研究人

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档