中文问答系统中答案抽取研究.docVIP

下载本文档

193
0
约7.34千字
约 16页
2018-08-14 发布于福建
举报
版权申诉

中文问答系统中答案抽取研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文问答系统中答案抽取研究

中文问答系统中答案抽取的研究　　摘要：答案抽取是开放领域问答系统中的关键部分，主要由检索结果句子的重排和最终候选实体的抽取构成。通过把依存分析到引入到这两个步骤中，并结合改进的关键词密度算法，增强了对句法和语义知识的利用和系统的鲁棒性，在实验中答案抽取的效果明显提高。　　关键词：问答系统；答案抽取；依存分析；语义角色标注　　中图分类号：TP391文献标识码：A文章编号：1009-3044(2011)12-2865-04 　　Answer Extraction Research for Chinese Question Answering System 　　LIU Ning-feng, SHI Xiao-dong 　　(Xiamen University, Xiamen 361005, China) 　　Abstract: Answering extraction is the key component of open domain question answering system, which contains sentences reranking and final candidate entity extraction. Through introducing dependency parsing into these two procedures incorporating keywords density algorithms, the system uses more syntactic and semantic knowledge as well as the enhancement of the systems robust and at last get a significant improvement in the experiment. 　　Key words: question answering system; answer extraction; dependency parsing; semantic role labeling 　　互联网的高速发展使得网上的信息越来越丰富，人们足不出户就能利用互联网得到自己所需要的各种信息，而搜索引擎便是人们快速获取信息和资源的重要手段之一。但是，目前的互联网搜索引擎还是存在很多缺陷，并不能帮助用户很快很准确地找到自己想要的知识，主要反映在以下的几个方面[4-5]：　　① 返回相关信息太多，用户不易使用；　　② 使用关键字进行检索，对用户经验要求较高，不符合用户日常生活的习惯，对于互联网新手来说，门槛较高；　　③ 检索结果差强人意，由于索引没有以关键词发基础，没有涉及语义、语用，所以它有5148天的缺陷；　　④ 表达方式的差异问题，世界不同国家或者同一国家不同地区的人都同一种意思的不同的表达方工使得现有的搜索引擎处理起来也比较困难。　　相对而言，问答系统能更好的满足用户的检索需求，能更快地找出用户所需的答案。用户不需要把自己的问题分解成关键字，用户可以把整个问题直接交给问答系统。问答系统结合自然语言处理技术，通过对问题理解，能够直接提交给用户想要的答案。　　1 中文问答案系统的一般构成　　问答系统一般包括3个部分: 问题分析、信息检索和答案抽取[9,11]: 　　1) 问题分析模型：问题分析阶段一般包括问题分类、关键词提取和关键词扩展、问题焦点词识别等。问题分类主要识别问题的答案类别; 关键词提取和扩展是为了构造用户查询关键词集合, 并提交给信息检索模块, 从互联网上检索以获得与查询相关的网页, 作为答案抽取的资源; 　　2) 信息检索模块：信息检索模块是问答系统承上启下的模块，它把大量的文本信息逐步转化为与问题相关的精确信息，从而减少了答案抽取模块的工作量，有利于答案抽取模块抽取更加精确的答案[5]；　　3) 答案抽取模块：答案抽取模块是问答系统最终产生正确答案的关键模块，负责把最终的答案呈现给用户, 是问答系统的核心部分，答案抽取算法的优劣直接影响着问答系统的性能。问答系统前面的处理都是为答案抽取准备的，答案抽取的对象是对相关文档和网页处理后所形成的候选答案集[7]。　　2 答案抽取方面的相关工作　　答案抽取主要是针对事实类型的问题,从侯选答案集中利用一些有效的语言资源,采用一定的方法把的正确的答案抽取出来返回给用户。对于事实类的问题，采用的答案抽取算法不同，返回给用户的最终答案也不相同，因此对答案抽取算法的选取非常关键。在事实类问题的答案抽取中，比较典型的算法有以下几种[15]：　　① 基于模式匹配的算法　　此算法的原理是：根据问题的类型，制定不同类型问题的答案模板。首先通