InsunKBQA一个基于知识库问答系统.docVIP

下载本文档

299
0
约9.31千字
约 16页
2018-08-11 发布于福建
举报
版权申诉

InsunKBQA一个基于知识库问答系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

InsunKBQA一个基于知识库问答系统

InsunKBQA一个基于知识库问答系统　　摘要：针对大规模知识库问答的特点，构建了1个包含3个主要步骤的问答系统：问句中的命名??体识别、问句与属性的映射和答案选择。使用基于别名词典的排序方法进行命名实体识别，使用结合注意力机制的双向LSTM进行属性映射，最后综合前2步的结果从知识库中选择答案。该系统在NLPCC-ICCPOL 2016 KBQA任务提供的测试数据集上的平均F1值为0.809 7，接近已发表的最好水平。　　关键词：知识库；自动问答；语义相似度；注意力机制　　中图分类号： TP391 　　文献标志码： A 　　文章编号： 2095-2163（2017）05-0150-05 　　Abstract： To solve the specific problem in KBQA， the paper builds a question answering system based on large scale Chinese knowledge base. This system consists of three main steps： recognition of named entity in question， mapping from question to property in KB， and answering selection. In the research， use alias dictionary based ranking method to recognize named entity contained in question， and attention mechanism with bidirectional LSTM for questionproperty mapping. Finally， exploit results of first two steps to select the answer from knowledge base.The average F1 value of this system in NLPCCICCPOL 2016 KBQA task is 0.809 7， which is competitive with the best result. 　　Keywords： knowledge base； question answering； semantic similarity； attention mechanism 　　0引言　　基于知识库的自动问答的核心在于对问句的语义理解。输入的问句是自然语言形式，而知识库中的信息却是结构化存储的，同时问句的表述与知识库中存储的信息的表述也存在较大的差异。如输入的问句为“请问华仔的妻子是谁啊？”，而知识库中相关的三元组为（“刘德华（香港著名歌手、演员）”，“配偶”，“朱丽倩”）。如何找到“华仔”与“刘德华”、“妻子”与“配偶”之前存在的联系，是解决这类问题的关键。　　目前主流的研究方法可以分为2类：基于语义分析（Semantic Parsing-based， SP-based）的方法和基于信息检索（Information Retrieve-based， IR-based）的方法[1]。基于语义分析的方法首先将自然语言形式的问句转换为某种逻辑表达形式，如lambda表达式等，然后查询知识库，找到问题的答案。基于信息检索的方法首先通过粗略的方式从知识库中获取一系列的候选答案，然后抽取候选答案、问句与候选答案间的关系等方面的特征，对候选答案进行排序，选择排名靠前的作为最终的答案。　　本文将基于知识库的自动问答分为2个步骤：命名实体识别和属性映射。在命名实体识别步骤中，本文使用基于排序的方法，首先构造别名词典以获取候选命名实体，然后对其进行排序；在属性映射步骤中，本文采用结合注意力机制的双向LSTM模型计算属性与问句的语义相关程度。　　本文剩余部分的内容组织如下：第1节介绍了基于知识库的自动问答系统的国内外研究现状，第2节研究提出了具体命名实体识别和属性映射步骤采用的方法，第3节则探讨设定了所采用的数据集和评价指标，进而阐述展示了实验结果。　　1国内外研究现状　　基于知识库的自动问答系统在人工智能领域具有很长的发展历史。早期的研究主要针对小规模的专用知识库，使用的方法以语义分析为主。但这种方法往往需要人工标注“自然语言语句-逻辑表达形式”对，需要花费大量精力。后来研究人员利用问答对或其它形式的语料，基于弱监督学习方法进行语义解析。如前所述，目前主流的研究方法主要分为基于语义分析的方法和基于信息检索的方法两大类。基于语义分析的方法侧重于将自然语言形式的问句转