面向问答系统的段落检索技术的研究.pdf

  1. 1、本文档共99页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 互联网的迅猛发展和广泛普及使得互联网成为人们获取信息和交流信息的 重要平台。~方面,互联网的规模呈爆炸式的增长,网络用户借助于搜索引擎等 工具,可以方便快捷地从互联网获取信息;另一方面,海量的信息也给用户准确 识别和选择有价值的信息带来了困难。因此,如何准确地从Web海量信息中检 索或抽取出符合用户需求的信息成为互联网信息处理的重要课题。问答式检索和 问答系统(QuestionAnsweringSystem)就是其中一个重要的研究课题,也是研究下 一代语义搜索引擎的重要研究方向。问答系统的特点在于,一方面允许用户用自 然语言提问而不是关键字的组合;另一方而系统给用户返回的是精确的答案而不 是一系列的文档。用户可以精确的表达自己的信息需求,系统则在理解用户需求 的基础上做出准确的信息反馈,从而实现用户与系统在语义级别上的信息交互。 文档检索模块是自动问答系统的重要组成部分。在通常情况下,系统需要利 用一些比较耗时的技术例如自然语言处理、信息抽取和模板匹配等来分析文档, 以查找问题的答案。用这些技术去分析文档,系统会付出巨人的时问和空间开销。 因此,需要减小处理对象的大小。基于上述原因,段落检索(PassageRetrieval)模 块被作为文档检索模块和答案抽取模块的中间模块,加入到自动问答系统中。段 落检索是信息检索领域的一个重要的研究问题,现在已经成为自动问答系统的一 个关键性模块。论文的主要工作与创新如下: 1)分析了文档相关性的评估方法。文档的相关性主要是指字词层面上较为 浅层的相关性,因此,经典的文档检索公式不适合直接应用于段落检索。为此, 本文分析了问答系统环境下段落检索的相关性,从文档和段落的区别m发,分析 了两者在主题、长度和关键字数目等方面的差异,并基于这些差异,提出了适于 段落检索公式的基本准则。 2)提出·‘种基于Web的问答式段落检索方法,以适应问答系统的动态性和 时效性需求。传统的方法一般是基于问题和段落之间的字词密度特征,这类方法 的缺陷在于,由于问题中所包含的关键词数量过少,常常因为匹配失败而使得召 回率较低。此外,基于词频和语言模型的检索算法,经常会返回…些不相关的段 落。因此本文提出一种启发式查询重写方法来解决这个问题,不再是单独考虑每 个关键字,而是以具有搭配关系和约束关系的词汇单元为基础,结合词汇之间的 关系,综合计算段落与给定问题的相关度。 3)提山一种新的基于多种特征的混合型相关性检索模型。本文研究了词汇 相似度、主题111似度承l结构千¨似度在评估问题和段落之间的语义年1】关t陀的行效 摘要 性。首先设计~种基于Web的字词语义栩似度的计算方法,并利用该方法对问 旬和段落之间的词汇相似度进行统计计算;然后采用基于概率语言模型的主题模 型对段落和问题之间的相似度进行计算;对于结构相似度,主要考虑两种常见的 结构:“g/h-转移和谓词声明结构,从约束满足的角度来判断问题和段落是否包 含了相同的结构约束关系。存上述工作基础上,提出了这--币t相似度的有权线性 组合的混合型段落检索模型。 4)研究了基于段落一段落图模型的答案段落排序方法。该方法不仅考虑了答 案段落与问题之间的独立相关性,而且利用段落之间的关系信息建立图模型,从 全局上计算段落与问题的语义相关性。由于段落之问存在着关系,段落之间会通 过关系相互影响各自与问题之间的相关性,因此,可以利用这种关系修正段落的 相关性。考虑到问题类型的多样性特点,本文提出了基于KNN的问题扩展方法。 该方法基于多种特征计算问题相似度,在问题空问获取最相似的问题,然后利用 相CAM题对原问题进行扩展,并基于扩展的问题模型获取候选的答案段落,根据 段落的内容特征计算段落一段落相似度,再建立图模型。基于候选段落的图模型 结构,利用基于图的排序模型对候选段落的相关性进行重新计算,并用基于学习 的方法训练最优的排序参数。 关键词:互联网,问答系统,段落检索,词汇才兀似度,主题语言模型,结构棚似 度,相关性,问题相似度,图模型 Abstract ABSTRACT The oftheWebhasmadeita informationso

您可能关注的文档

文档评论(0)

zaqxsw1230 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档