构建汉语答系统评测平台.doc

下载文档 降价啦

0
0
约1.49万字
约 9页
2017-08-26 发布于浙江
举报
版权申诉
保障服务

构建汉语答系统评测平台.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

构建汉语答系统评测平台

构建汉语问答系统评测平台吴友政，赵军，段湘煜，徐波（中国科学院自动化研究所模式识别国家重点实验室缺乏汉语制约汉语问答技术发展的主要障碍推出面向汉语的问答评测平台Evaluation Platform for Chinese Question Answering，简称EPCQA）， an Evaluation Platform for Chinese Question Answering Systems Youzheng Wu Jun Zhao Xiangyu Duan Bo Xu (National Laboratory of Pattern Recognition, Institute of Automation, CAS, Beijing 100080) The success of TREC, NICIR, CLEF and etc has proved that systematical and large scale evaluation will accelerate the research on Question Answering (QA). Unfortunately, no evaluation mechanism has become the main handicap to the research and development of Chinese QA systems. Based on the experiences from previous evaluation systems, we built an evaluation platform and presented the roadmap for Chinese Question Answering. The paper introduces in detail the process of building the evaluation platform, which is composed of the corpus as the primary source of answers(1.8GB from Web), the test question set (4250 test questions via multi-approaches), and the evaluations in terms of MRR, precision, recall and f-measure. Chinese Question Answering; Evaluation 引言问答系统接受用户以自然语言形式描述的世界上最大的宫殿是什么宫殿？，并从大量的异构数据中查找的准确、简洁的答案紫禁城故宫。因此，问答系统根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别它能够向用户提供真正有用、精确的信息，是下一代搜索引擎的理想选择。经过这几年的发展自然语言问答系统已经成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点在问答中，评估对于系统的研发和应用有显著的影响。通过系统化、大规模的定量评测推动研向前发展的受到越来越多研人员的重视，例如国际上著名的TREC (Text Retrieval Conference)MUC(Message Understanding Conference)，DUC(Document Understanding Conference)，国内的863、973评测等等。这种以评测推动研究发展的思路：1）以大规模测试为基础，推动研究向前发展；2）经由开放式的论坛，使与会者能交流研究的成果与心得，增进学术界产业界的交流互通；3）经由对真实环境的模拟与重要改进，加速将实验室研究转化为产品；4）发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术。美国NISTand Technology)资助TREC从1999年开始设立QA Track测试项，提供英文QA测试集。日本NICIR(NII-NACSIS Test Collection for IR Systems)于2002年开始QA Track评测，并提供日文QA测试集。而欧洲CLEF(Cross Language Evaluation Forum)也于2003第一届多语言QA Track。缺乏大规模的汉语测试集是制约汉语问答技术发展的主要障碍。在TREC, NTCIR和CLEF成功经验的基础上推出汉语问答评测平台EPCQA(Evaluation Platform for Chinese Question Answering)，希望能与国内外问答检索领域的团队合作，在各个研究小组的共同参与下，互相验证彼此的研究成果，完善以汉语