基于证据理论和本体的查询扩展分析-query expansion analysis based on evidence theory and ontology.docxVIP

  • 22
  • 0
  • 约2.67万字
  • 约 40页
  • 2018-08-14 发布于上海
  • 举报

基于证据理论和本体的查询扩展分析-query expansion analysis based on evidence theory and ontology.docx

基于证据理论和本体的查询扩展分析-query expansion analysis based on evidence theory and ontology

目录第一章绪论11.1问题提出11.2查询扩展技术现状11.2.1高阶纯相关词汇挖掘31.2.2基于外部知识的查询扩展31.3本体研究现状41.4查询扩展技术存在问题51.5全文安排5第二章相关概念73.3查询匹配12第四章基于证据理论的知识词排序144.1证据理论144.2基于证据理论的候选词排序164.2.1融合性184.2.2传递性184.3扩展的相关模型19第五章实验215.1实验设定215.1.1实验数据集215.1.2MAP215.2基模型245.2.1矢量空间模型245.2.2概率模型255.3参数设定265.4实验结果265.4.1QL以及RM3实验结果265.4.2结合Freebase中的查询扩展效果275.4.3结合Freebase及证据理论的查询扩展效果275.4.4有效查询的实验结果285.4.5参数对于实验结果的影响295.5小结及补充实验30第六章总结316.1实验总结316.2实验不足以及后续工作32参考文献33发表论文和参加科研情况说明37致谢38第一章绪论1.1问题提出查询的需求往往被定制成关键词的查询。然而搜索者倾向于使用短的和不完全的查询。相应的用户输入的原始查询可能会丢失一些重要的信息,这导致了对于查询结果的一个负面的影响。为了解决这个问题,查询扩展被广泛的应用。伪相关反馈模型是一个典型的查询扩展的模型。它从初次检索结果的排序靠前的文档中选取扩展词,这里这种模型假设反馈文档是和查询相关的并且包含一些同查询相关的关键概念。然而,实际上排名靠前的文档集可能仅仅包含少量的真正相关的文档,因此许多提取出的扩展词可能并不是相关的。这种扩展词的不确定性很可能会引起查询的偏移问题。为了解决这个问题,一些研究者提出使用外部的知识例如点击数据,用户日志,维基百科或者一些简单的实体数据WordNet。对于用户检索记录(例如点击数据)的分析可能会避免查询偏移问题,但是这种知识的覆盖面是有限的。Web和人类编辑的大规模知识(例如维基)的出现为查询扩展提供了一种新的高质量的关联词的来源。1.2查询扩展技术现状伪相关反馈是一种很有效的查询扩展方法,它通过利用伪相关反馈获得的初次查询的结果[8][7][19][33]改写初始的查询。基于初始查询的前N篇文档都是和查询相关的这一假设,一些伪相关反馈的算法被提了出来。例如,Okapi[22],Lavrenko和Croft的相关模型[15]以及Zhai和Lafferty’s的融合模型[35]。另外,一些研究致力于提高传统的伪相关反馈模型,例如局部上下文分析方法[33],利用潜概念[17],估计query-regulared方法[37]。尽管有大量的研究,一个很严重的问题是通过伪相关反馈的文档中获得查询词并不是都有用的[8]。一些研究关注于提取和查询相关的词语,他们通过词语间的依赖性来查找相关词语,例如Houetal[36]提出在TREC数据集上挖掘高阶相关词汇关系的挖掘算法。另外,许多的研究工作关注利用外部的资源来改进查询扩展。他们发现查询扩展失败的一个原因是在本地的数据集中缺少相关的文档。因此,查询扩展的吸能可以通过利用外部的知识来进行提高。一些外部的数据集的利用被提出来了,例如使用查询日志[10],WordNet[9],维基百科[34],ConceptNet[13]。近来,基于vanRijsbergen[25]提出的关联假设,一些研究者试图通过获取语义关系来进行查询扩展。早期的全局的查询扩展技术[11][12][33]目标基于单词的共现次数来决定单词间的语义关系的强度。随着人为编辑的通用目标或者特定域的本体提供了为查询扩展提供了高质量的词语间的关联。Yin等提出了一种利用URL图基于随机游走的扩展方法[12]。Voorhees[32]通过实验确定了利用WordNet的查询扩展方法的一个上界。Vallet等[3]利用本体的查询语言来搜索相关的文档。Nagypal等[20]利用本体和向量模型的融合。Braga等[2]利用本体来抽取和过滤域信息通过多重域。Ozcan等[4]利用本体和WordNet的相似词来表达概念。Meij等[16]展示了区别性的文档注释使用特定域的本体,例如MeSH能够非常有效的提高检索效果。除了提到的使用语义的资源来做查询扩展的实验,一些结合了多重资源的方法也被提了出来。Mandala等[31]提出了一种融合三种不同的词库来进行查询扩展。Bodner等[27]融合了WordNet和共现词库的查询扩展。Bai等[26]提出了一种查询扩展方法,这种方法基于结合单词的共现关系,HAL,全局和局部的计算来得分。在Collins-Thompson和Callan[30]的工作中,马尔科夫链模型被用于查询扩展,这个模型通过融合多种关于单词关联模型的知识来实现。在Cao

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档