清华THUIR2005年863信息检索评测报告-CMU.doc

清华THUIR2005年863信息检索评测报告-CMU.doc

清华THUIR2005年863信息检索评测报告-CMU

清华THUIR 2005年863信息检索评测 赵乐 岑荣伟 王灿辉 齐伟 金奕江 张敏 马少平 (清华大学 智能技术与系统国家重点实验室,北京 100084) 摘要:在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字,以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果,我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数,以及有比较一致的良好效果的入链接描述方法。就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果。 关键词:计算机应用,中文信息检索,词对检索,入链接描述文字,检索评测 2005 THUIR Report for 863 Information Retrieval Evaluation Le Zhao, Rongwei Cen, Canhui Wang, Wei Qi, Yijiang Jin, Min Zhang, Shaoping Ma (State Key Lab of Intelligent Technologies and System, Tsinghua University) Abstract: In the IR evaluation of 2005, we tried to include information from in-link anchor texts and word-pair to improve retrieval performance. The two runs we submitted were one with automatic query processing and one with manual query editing. We chose the most stable and effective method for the two runs: word-pair with a stable parameter and in-link anchor included in the documents. As results from our training topics and from evaluations of the submitted two runs show, our method requires an accurate user query to achieve high performance, and the word-pair together with in-link anchor are effective retrieval methods. Keywords: Computer Application, Chinese information retrieval, word-pair retrieval, in-link anchor, evaluation 任务介绍(TASK SETUP) 2005年863中文信息检索评测使用了CWT100G的数据集,原始文档去除HTML tag之后大小为20GB(未压缩),其中包含的网页数目超过560万。(数据集可以从如下地址得到:/SharedRes/DataSet/cwt100g.html)。 由于文档集合规模增大,今年评测主要涉及大规模文档集上信息检索以及结果评价的问题。正如TREC Terabyte[1] 任务指出的:由于传统小规模集合上,评测人员可以通过人工遍历所有文档的办法做出每个查询的标准答案,但是集合的增大使得完全评价集合所有文档变得不可能。也就是说,随着集合规模增加Pooling的使用不能保证构造的查询和结果集合能够在未来有力地服务于检索系统性能的评价。这里就涉及评价标准(evaluation measure)设定的问题。 本次中文检索评测提供了30个查询的样例,评测使用50个查询的测试集,要求至多提交两组结果,一组自动构造检索词,一组手工产生检索词。 系统描述(SYSTEM DESCRIPTION) 系统结构: 文档的处理:入链接的描述文字(in-link anchor)被提取,并加入了对应的文档。HTML文档去除了HTML标记,只保留文档内容。文章的各个字段譬如标题、粗体等不作区分。 中文分词:采用最小分词,双向匹配,所有词典中出现了的词都被分开(我们采用了一个比较大的中文词词典,而并没有作任何命名体识别或缩略语等处理)。这个分词方式分出的词粒度最小,仅比单字作为词粒度稍大。这个分词有利于处理查询和文档分词可能不匹配的情况,提高查全率。并且我们有后续的词对检索,进一步增加查准率。(由于查询并不一定而且很多时候都

文档评论(0)

1亿VIP精品文档

相关文档