清华THUIR2005年863信息检索评测报告.docVIP

下载本文档

3
0
约6.34千字
约 5页
2017-01-25 发布于天津
举报
版权申诉

清华THUIR2005年863信息检索评测报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

清华THUIR2005年863信息检索评测报告

清华THUIR 2005年863信息检索评测赵乐岑荣伟王灿辉齐伟金奕江张敏马少平（清华大学智能技术与系统国家重点实验室，北京 100084）摘要：在2005年863信息检索评测中，我们主要尝试了采用入链接描述文字，以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果，我们的手工查询以及自动处理查询两组结果，都采用了比较稳定的词对检索参数，以及有比较一致的良好效果的入链接描述方法。就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看，我们的方法对用户查询词的精确性有比较高的要求，并且词对和入链接描述文字都能提高检索的效果。关键词：计算机应用，中文信息检索，词对检索，入链接描述文字，检索评测 2005 THUIR Report for 863 Information Retrieval Evaluation Le Zhao, Rongwei Cen, Canhui Wang, Wei Qi, Yijiang Jin, Min Zhang, Shaoping Ma (State Key Lab of Intelligent Technologies and System, Tsinghua University) Abstract: In the IR evaluation of 2005, we tried to include information from in-link anchor texts and word-pair to improve retrieval performance. The two runs we submitted were one with automatic query processing and one with manual query editing. We chose the most stable and effective method for the two runs: word-pair with a stable parameter and in-link anchor included in the documents. As results from our training topics and from evaluations of the submitted two runs show, our method requires an accurate user query to achieve high performance, and the word-pair together with in-link anchor are effective retrieval methods. Keywords: Computer Application, Chinese information retrieval, word-pair retrieval, in-link anchor, evaluation 任务介绍（TASK SETUP） 2005年863中文信息检索评测使用了CWT100G的数据集，原始文档去除HTML tag之后大小为20GB（未压缩），其中包含的网页数目超过560万。（数据集可以从如下地址得到：/SharedRes/DataSet/cwt100g.html）。由于文档集合规模增大，今年评测主要涉及大规模文档集上信息检索以及结果评价的问题。正如TREC Terabyte[1] 任务指出的：由于传统小规模集合上，评测人员可以通过人工遍历所有文档的办法做出每个查询的标准答案，但是集合的增大使得完全评价集合所有文档变得不可能。也就是说，随着集合规模增加Pooling的使用不能保证构造的查询和结果集合能够在未来有力地服务于检索系统性能的评价。这里就涉及评价标准（evaluation measure）设定的问题。本次中文检索评测提供了30个查询的样例，评测使用50个查询的测试集，要求至多提交两组结果，一组自动构造检索词，一组手工产生检索词。系统描述（SYSTEM DESCRIPTION）系统结构：文档的处理：入链接的描述文字（in-link anchor）被提取，并加入了对应的文档。HTML文档去除了HTML标记，只保留文档内容。文章的各个字段譬如标题、粗体等不作区分。中文分词：采用最小分词，双向匹配，所有词典中出现了的词都被分开（我们采用了一个比较大的中文词词典，而并没有作任何命名体识别或缩略语等处理）。这个分词方式分出的词粒度最小，仅比单字作为词粒度稍大。这个分词有利于处理查询和文档分词可能不匹配的情况，提高查全率。并且我们有后续的词对检索，进一步增加查准率。（由于查询并不一定而且很多时候都