基于生成对抗网络的问答检索研究.pdf

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于生成对抗网络的问答检索研究 摘 要 随着网络的普及和大数据的迅速发展,互联网上可供学习的信息来源越来越丰富, 人们能够通过搜索引擎快速便捷地获取自己想要的信息。而由于可供选择的数据量很 大,搜索引擎需要有较强的算法支持以匹配到用户真正需要的信息。但是现有的搜索 引擎仍然存在很多不足,主要分为以下两个方面:一是返回结果太多,导致用户很难 快速准确地发现最符合需要的信息;二是搜索引擎的技术基础,即关键字匹配,主要 关注语言的语法形式,而对语义的关注较少,同时由于用户表达个人需求的能力参差 不齐,采用简单的查询词难以准确地表达信息需求,使得检索效果一般。除搜索引擎 外,可以用问答检索系统来满足用户的信息需求。不同于传统的搜索引擎,问答检索 系统不仅能用自然语言语句来提问,还可以根据模型返回的查询结果直接将最佳答案 返回给用户,而不再仅是相关的网页。问答检索系统通过对问题和答案进行相关性匹 配排序来找到最佳答案,因此,选择合适的训练数据是训练问答检索模型的第一步。 基于此,本文语义匹配中首先要完成对输入文本的表示学习工作,进而计算问题与答 案间的语义相似度。 本文首先分析了问答检索问题的研究目的及意义,并对国内外在问答检索领域的 研究现状进行详细阐述,包括信息检索、问答系统、深度语义匹配等方面的内容,为 模型的展开奠定理论基础。然后介绍了本文在研究中所用到的技术和方法,主要是深 度语义匹配和生成对抗网络(GAN, Generative adversarial network )的方法原理。随后 提出QAGAN 模型,采用基于GAN 模型的方法对限定域的问题和答案进行语义匹配, 其目的不仅是从候选答案集中找出正确答案呈现给用户,更在不断训练过程中提升了 模型识别正确答案的能力。在模型的应用中,针对限定域问答检索任务,选择保险领 域语料库,首先从包含正确问答对的训练集中采样正向问答对,对每一组正向问答对, 从全部答案集中抽取出正确答案之外的n 条干扰答案,分别对三项的原始句子输入进 行表示学习得到对应的句子向量,并通过求余弦值的方法计算相似度得分并排序,生 成模型产生近似于真实答案排序的答案对,判别模型需要区分真实答案对和生成答案 对。最后,将算法识别出的结果与数据标签进行对比,以验证方法的有效性。 本文的创新点主要体现在以下两方面: 1.将深度语义匹配模型用于问答检索系统,更加注重语义信息。深度语义匹配模 型在信息检索领域有一定程度的发展,而在问答系统这样的短文本任务中应用较少。 通过对问题和答案候选集一一进行深度语义匹配,从答案候选集中选择出最佳回答。 2.将生成对抗网络应用于自然语言处理领域 (NLP, Natural language processing ) 的问答检索任务中。此前也有学者尝试过将GAN 与NLP 进行结合,但大多难以取得 令人满意的效果。此次将GAN 应用于问答系统中,结合GAN 中的生成模型与对抗 1 摘 要 模型,利用博弈论方法来迭代地优化这两个模型。一方面,旨在从标记和未标记数据 中挖掘有效信号的判别模型,为训练生成模型提供了指导,以适应在给定查询的文档 上隐含的相关性分布。另一方面,生成模型通过最小化其判别目标,以对抗的方式生 成对于判别模型来说难以分辨的问答对。 关键词:问答检索;深度语义匹配;生成对抗网络 2 基于生成对抗网络的问答检索研究 Abstract With the popularity of the Internet and the rapid development of big data, the sources of information available for learning on the Internet are becoming more and more abundant, everyone can quickly and easily obtain the information they want th

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档