国外基于知识库问答系统相关研究进展及其启示.docVIP

下载本文档

10
0
约7.19千字
约 14页
2018-08-26 发布于福建
举报
版权申诉

国外基于知识库问答系统相关研究进展及其启示.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

国外基于知识库问答系统相关研究进展及其启示

国外基于知识库问答系统相关研究进展及其启示　　摘要：在web of science上检索国外三年内关于知识库问答系统的最新相关研究，介绍了知识库问答系统研究在计算机信息检索领域和自然语言处理领域的发展进程；再从目前最前沿的相关研究出发，介绍了两种主要解决知识库问答系统的自然语言处理方法；并探讨了国外最前沿的研究成果为国内知识库问答系统以及自然语言处理相关研究带来的启示，并对未来研究前景进行了展望。　　关键词：知识库问答系统；自然语言处理；信息抽取问答系统；语义分析问答系统　　DOI：10.13939/i.cnki.zgsc.2016.39.086 　　一、知识库问答系统相关研究的发展进程　　有关于问答系统的研究在自然语言处理领域和信息检索相关研究领域已经有了相当长的研究历史。早期人们对于问答系统研究的动机和需求主要来自于信息检索系统的自动化，人们寻求一种计算机检索系统可以自动并且准确地理解人的信息需求，以便于找到合适的信息。所以，早期的问答系统解决方法主要是基于信息检索的技术。比如在基于模板的RDF问答系统（Unger c.et al，2012）一文中，传统的问答系统都是将问题转换为RDF三元组的形式，再通过三元组在知识库中检索可能的候选答案，但是作者认为单纯使用RDF三元组无法准确地表达问题真正的含义，尤其是对于较为复杂的问题，RDF三元组很难回答出准确答案。于是作者提出了一种更为复杂的问题解析方法，即引入“SPARQL”模式来代替原有的简单RDF三元组。“SPARQL”模式是一种专门用于RDF的查询语言和数据获取协议，通过“SPARQL”的引入，可以更准确地表达提问的逻辑关系，从而提高解析提问的正确率。Yahya等（2012）在处理Web中的自然语言提问时，也利用了“SPARQL”模式对自然语言提问进行拆分和进一步的语义分析。这种处理自然语言提问的方法的主要思路是将问题转换为RDF三元组或者更为复杂的“SPARQL”形式，即抽取问题中最核心的信息，然后在知识库中进行检索，之后对检索结果进行排序，选择最可能的答案。其主要缺陷首先是对问题解析不够准确，尽管使用“SPARQL”来表示问题中的逻辑关系，也仍然是基于三元组的形式，对于逻辑关系更为复杂的问题无法准确理解，其次对于候选答案的选择和排序的准确率也不是非常理想。　　随着自然语言处理技术的不断发展，对于自然语言问答系统的解决方案目前主要有两种形式，一种是基于语义分析的方法，即利用语义分析的方法对提问进行解析，将自然语言的提问转换成更高级的表达形式或者标准提问语句。最终目标是解析提问的语义，将其转换为逻辑形式来准确表达自然语言提问的含义。然后直接通过逻辑表达式在知识库中匹配正确的答案，不再需要找到大量候选答案，然后挑选可能性最大的答案。与之相反，另一种处理自然语言提问的方法是基于信息抽取。这种方法不去理解提问的逻辑或含义，而是抽取提问中重要的核心话题实体和关系，然后在知识库中搜索核心实体几跳以内的候选答案实体。最后计算候选答案与提问文本的相似性或相关性，来选取可能的最佳答案。　　二、基于语义分析的问答系统研究　　首先来看近三年来基于语义分析技术的问答系统相关研究。传统的基于语义分析的问答系统一般来说都是通过人工标注的逻辑词表，在小范围内进行有监督的机器学习。这种方式有非常大的缺陷，最主要的问题之一就是通过监督学习，并且依赖于人工标注，这就导致在大规模的知识库中表现不佳，遇到在监督学习中没有学习过的样本就很难处理。Cai等（2013）的研究目的就是在传统监督学习的基础上，建立了一种可以用于大规模知识库问答系统的半监督学习模型，以解决纯监督学习的语义分析方法在知识库问答系统中存在的问题。首先作者依然使用了纯监督学习的方法进行了一个语义分析器的训练，其次作者开发了一个匹配算法在知识库中找到与词汇相关的标志，最后作者建立了一个词汇扩展器，将词汇和知识库中的相关标志联系在一起，并且可以不断添加新的词汇和知识库相关标志，最终完成学习。这种半监督学习模型虽然性能比传统的方法有了较大提升，但仍然无法完全摆脱对人工标注的依赖，同时对词汇扩展器中词汇与相关标志的正确度要求较高，所以仍然存在一些问题。　　在用动态匹配方法扩展语义分析器（Kwiat-kowski T.et al，2013）一文中作者发现，首先，在传统的语义分析解决知识库问答系统的方法中，由于对同一问题自然语言表述的多样性，导致对相近提问的语义分析结果，即逻辑表达式会有所差异。因为在知识库中实体间的关系是唯一的，这就会产生逻辑表达式与知识库的关系无法匹配的情况，从而降低了问答系统的性能。其次，面对大范围的知识库，依赖于人工标记的逻辑形式是不现实的。于是作者提出了一种基于本体匹配并且不依赖于人工词汇触发