汉语问答系统的发展阶段.doc

第一届全国信息检索与内容安全学术会议 PAGE PAGE 2 基金资助:本课题得到国家自然科学基金和教育部归国留学人员科研基金资助。作者简介:吴友政 基金资助:本课题得到国家自然科学基金和教育部归国留学人员科研基金资助。 作者简介:吴友政,安徽,博士生,email: yzwu@;赵军,山西,副研究员,博士,email: jzhao@; 段湘煜,河南,博士生,email: xyduan@;徐波,浙江,研究员,博士, email: xubo@ 吴友政,赵军,段湘煜,徐波 (中国科学院自动化研究所 模式识别国家重点实验室,北京 100080) TREC、NICIR和CLEF等评测的成功已经证明:系统化、大规模的定量评测对问答系统的研发有巨大的推动作用。然而,缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍。本研究小组在吸收英文、日文等问答系统评测的成功经验基础上,推出面向汉语的问答系统评测平台(Evaluation Platform for Chinese Question Answering,简称EPCQA),并规划了汉语问答系统评测的几个阶段。除此之外,本文还对EPCQA语料库(1.8GB互联网网页)、测试集(从多种不同的途径收集了4250个基于的事实用户提问)、打分标准(MRR、准确率、召回率和F值)等构建过程进行了详细的介绍。 汉语问答系统;评测 Building an Evaluation Platform for Chinese Question Answering Systems Youzheng Wu Jun Zhao Xiangyu Duan Bo Xu (National Laboratory of Pattern Recognition, Institute of Automation, CAS, The success of TREC, NICIR, CLEF and etc has proved that systematical and large scale evaluation will accelerate the research on Question Answering (QA). Unfortunately, no evaluation mechanism has become the main handicap to the research and development of Chinese QA systems. Based on the experiences from previous evaluation systems, we built an evaluation platform and presented the roadmap for Chinese Question Answering. The paper introduces in detail the process of building the evaluation platform, which is composed of the corpus as the primary source of answers(1.8GB from Web), the test question set (4250 test questions via multi-approaches), and the evaluations in terms of MRR, precision, recall and f-measure. Chinese Question Answering; Evaluation 引言 所谓问答系统,是指系统接受用户以自然语言形式描述的提问(例如:世界上最大的宫殿是什么宫殿?),并从大量的异构数据中查找出能回答该提问的准确、简洁的答案(例如:“紫禁城”或者“故宫”)的信息检索系统。因此,问答系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。它能够向用户提供真正有用、精确的信息,将是下一代搜索引擎的理想选择之一。经过这几年的发展,自然语言问答系统已经成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点。 在问答系统的研发进程中,系统评估对于系统的研发和应用有显著的影响。几年来,“通过系统化、大规模的定量评测推动研发向前发展”的研究方法和技术路线受到越来越多的研发人员的重视,例如国际上著名的TREC (Text Retrieval Conference),MUC(Message Understanding Conference),DUC(Document Understanding Conferen

文档评论(0)

1亿VIP精品文档

相关文档