2004年度信息检索评测大纲.docVIP

下载本文档

0
0
约2.32千字
约 6页
2017-10-18 发布于天津
举报
版权申诉

2004年度信息检索评测大纲.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2004年度信息检索评测大纲

2004年度信息检索评测大纲一、评测对象本次评测的对象为中文信息检索系统中的核心技术。二、评测内容本次评测主要评测信息检索系统三、评测方法 1.评测语料文档检索和段落检索评测语料相同，选自互联网，文件格式包括：HTM、 HTML、TXT本次评测为现场测试。测试集采用互联网上的采集的信息，由于测试数据较多，无法完全依靠人工方法构造标准答案。如果参加单位足够多，可以参照TREC的方法，将所有参赛单位的答案合并作为候选集合，再通过人工筛选得到一个模拟标准答案，利用这个模拟标准答案，也可以进行各项指标的评测。如果参赛单位不多， 3.评测步骤首先由评测举办方提前2周向参评单位公布评测语料；参评单位做索引；参评单位提前2天到评测地安装索引文件；在评测举办方统一提供的评测环境上安装被测系统；参评单位运行信息检索系统，现场给出检索结果，并将输出的检索结果交给评测举办方；评测举办方事后组织专家进行评测；公布评测结果。 4.评测标准（1）一般原则一般地，信息检索的质量应从以下几个方面加以评价：检索的准确性，所检索出来的内容应该尽量符合检索条件；检索的全面性，应该尽量检索出所有符合检索条件的内容；（2）量化指标文档检索准确率 ×100% 召回率 ×100% F1 值： ×100% 平均准确率：计算Recall= 0， 0.1， 0.2， …， 1.0上分别对应的Precision然后求平均值。 P@10：。准确率 ×100% 召回率 ×100% 其中: R为标准答案段落数 F1 值： ×100% 段落R-Precision ×100% 其中: R为标准答案段落数（3）其他指标系统完成检索所用的时间也做为参考指标。 5.输入输出文件格式查询语料库查询语料库是一个计算机文件的集合，所有的文件都放在一个指定的目录下（假设指定目录是“X:/corpus”，其中X是驱动器号）。输入文件格式输入文件采用XML格式，每个查询语句（query）由标题（title）、描述（description）和叙述（narrative）三个部分组成，例如： query id=“1” title让奥运无语言障碍/title desc为北京2008年奥运会提供个性化的多语言信息服务系统叫作什么?/desc narr与多语言智能信息服务网络系统无关的奥运科技项目不在检索范围内./narr /query query id=“2” title奥运会主体育场/title desc哪几家公司中标建设国家体育场?/desc narr仅检索与国家体育场建设单位有关的内容，其它关于国家体育场的不在检索范围内/narr /query query id=“3” title阳光工程/title desc奥运体育场馆建设所要遵循的原则/desc narr仅检索有关奥运体育场馆建设原则的内容/narr /query …… “1” result id=“1”dir1/file1.htm /result result id=“2”dir2/dir21/file2.txt/result …… result id=“n”dirn/filen.doc/result /query …… 这这个例子中，对于查询1，测试系统返回了n个结果文件，其文件路径分别是： X:/corpus/dir1/file1.htm X:/corpus/dir2/dir21/file2.txt …… X:/corpus/dirn/filen.doc 段落检索输出文件采用XML格式，对每一查询，系统返回结果文件相对于指定目录的相对路径，并按照相关度递减的顺序给出。形式如下： query id=“1” result id=”1” document dir1/file1.htm/document passage offset28/passage offset passage len20/passage len /result result id=”2” document dir2/dir21/file2.txt /document passage offset53/passage offset passage len25/passage len /result 厖 result id= ”n” document dirn/filen.html /document passage offset36/passage offset passage len20/passage len /result /query 厖这这个例子中，对于查询1，测试系统返回了n个结果文件，其文件路径分别是： X:/corpus/dir1/file1.htm X:/corpus/dir