sogout语料库构建–查询语料-thuir.ppt

下载文档 降价啦

17
0
约5.84千字
约 41页
2018-03-23 发布于天津
举报
版权申诉
保障服务

sogout语料库构建–查询语料-thuir.ppt

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

sogout语料库构建–查询语料-thuir

海量规模网络信息检索评测语料库的设计与实现清华大学智能技术与系统国家重点实验室清华—搜狐搜索技术联合实验室刘奕群马少平张扬茹立云 2008年11月16日研究背景多少人在使用搜索引擎全球范围内84%的互联网用户使用搜索引擎，其中超过一半的人几乎每天使用。 95%以上的中国网民使用过搜索引擎，84.5%的用户将搜索引擎作为得知新网站的主要途径。商用搜索引擎竞争日趋激烈(市场规模约56亿元)。从2007年9月开始，中国成为全球首个每月搜索请求超过100亿次的国家研究背景搜索引擎与性能评价对搜索引擎用户：选择最有效获取信息的媒介对广告商：选择最有效的盈利平台对研究人员：算法改进、性能监控效果评价是信息检索相关研究的基础内容评价在信息检索系统的研发中一直处于核心的地位，以致于算法与它们的效果评价方式是合二为一的。（Saracevic, 1995）研究背景如何对网络信息检索系统进行评价 Cranfield评价方法被应用在包括TREC在内的几乎所有主流的信息检索研究工作中。评价组成 (核心：评价语料库) 文本语料，查询语料，标注语料 Cranfield评价方式的优势有效控制系统变量可以跨系统比较的评价结果研究背景网络信息检索评测语料库建立评测语料库的必要性信息检索是实证学科真实规模的评测语料是算法有效性的保证研究人员各自独立构建存在困难海量网络资源抓取真实用户需求获取大规模用户查询的答案标注建立评测语料库的可能性产业界与研究界的合作搜索引擎日志被合理应用已有的评测语料库相关研究文本信息检索会议（TREC） NIST组织的研讨文本检索技术的国际性论坛大规模文本检索系统的标准评测平台与网络信息检索相关的评测语料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 已有的评测语料库相关研究 863中文信息处理与智能人机接口评测语料库规模 30G 数据 30个查询，pooling方式确定答案 4个系统参加评测现场评测参与系统少侧重系统稳定性和效率已有的评测语料库相关研究 SEWM评测北京大学网络实验室组织类似TREC的评测架构文本语料库：CWT100g, CWT200g 去重、去除垃圾，37M网页查询语料库：来自天网查询日志 2005-2007 三年的时间 1185 导航类查询 285 信息类查询标注方式：人工标注，pooling方法已有的评测语料库相关研究经验总结文本语料抓取相对高质量的网络数据 VLC2 = WT10g，.GOV, .GOV2, CWT200g 查询语料真实反映用户需求 TREC Web, Terabyte, SEWM 标注语料规模保证 TREC million query track: efficiency, not effectiveness 已有的评测语料库相关研究主要困难文本语料库构建规模问题 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 与中文用户实际需求量匹配：100 Million量级达到100 Million/Terabyte量级，保证研究成果的可信性网页质量筛选网页质量相对较高：重复语料、垃圾语料的处理。辅助语料的构建问题链接关系语料点击日志信息网络信息检索评测集合主要困难查询语料库构建规模问题有充分的代表性考虑到标注工作量查询样例选择真实用户需求有充分的代表性覆盖不同用户信息需求已有的评测语料库相关研究主要困难标注语料库构建 Voorhees 估计，对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 TREC提出pooling方法，在保证评价结果可靠性的基础上大大减少了评判工作量缺点：处理的查询数目少，针对小规模的查询集合，仍需要耗费十余名标注人员1-2个月的工作时间 SogouT语料库构建设计思路海量规模、符合大多数研究机构的处理能力能够代表中文互联网的基本情况能够代表中文搜索引擎用户的需求情况客观全面评价网络信息检索系统性能实现思路利用搜索引擎资源网页抓取、查询日志获取、网页质量评估数据获取使用自动化的查询语料标注方法 SogouT语料库构建