- 22
- 0
- 约2.67万字
- 约 40页
- 2018-08-14 发布于上海
- 举报
基于证据理论和本体的查询扩展分析-query expansion analysis based on evidence theory and ontology
目录第一章绪论11.1问题提出11.2查询扩展技术现状11.2.1高阶纯相关词汇挖掘31.2.2基于外部知识的查询扩展31.3本体研究现状41.4查询扩展技术存在问题51.5全文安排5第二章相关概念73.3查询匹配12第四章基于证据理论的知识词排序144.1证据理论144.2基于证据理论的候选词排序164.2.1融合性184.2.2传递性184.3扩展的相关模型19第五章实验215.1实验设定215.1.1实验数据集215.1.2MAP215.2基模型245.2.1矢量空间模型245.2.2概率模型255.3参数设定265.4实验结果265.4.1QL以及RM3实验结果265.4.2结合Freebase中的查询扩展效果275.4.3结合Freebase及证据理论的查询扩展效果275.4.4有效查询的实验结果285.4.5参数对于实验结果的影响295.5小结及补充实验30第六章总结316.1实验总结316.2实验不足以及后续工作32参考文献33发表论文和参加科研情况说明37致谢38第一章绪论1.1问题提出查询的需求往往被定制成关键词的查询。然而搜索者倾向于使用短的和不完全的查询。相应的用户输入的原始查询可能会丢失一些重要的信息,这导致了对于查询结果的一个负面的影响。为了解决这个问题,查询扩展被广泛的应用。伪相关反馈模型是一个典型的查询扩展的模型。它从初次检索结果的排序靠前的文档中选取扩展词,这里这种模型假设反馈文档是和查询相关的并且包含一些同查询相关的关键概念。然而,实际上排名靠前的文档集可能仅仅包含少量的真正相关的文档,因此许多提取出的扩展词可能并不是相关的。这种扩展词的不确定性很可能会引起查询的偏移问题。为了解决这个问题,一些研究者提出使用外部的知识例如点击数据,用户日志,维基百科或者一些简单的实体数据WordNet。对于用户检索记录(例如点击数据)的分析可能会避免查询偏移问题,但是这种知识的覆盖面是有限的。Web和人类编辑的大规模知识(例如维基)的出现为查询扩展提供了一种新的高质量的关联词的来源。1.2查询扩展技术现状伪相关反馈是一种很有效的查询扩展方法,它通过利用伪相关反馈获得的初次查询的结果[8][7][19][33]改写初始的查询。基于初始查询的前N篇文档都是和查询相关的这一假设,一些伪相关反馈的算法被提了出来。例如,Okapi[22],Lavrenko和Croft的相关模型[15]以及Zhai和Lafferty’s的融合模型[35]。另外,一些研究致力于提高传统的伪相关反馈模型,例如局部上下文分析方法[33],利用潜概念[17],估计query-regulared方法[37]。尽管有大量的研究,一个很严重的问题是通过伪相关反馈的文档中获得查询词并不是都有用的[8]。一些研究关注于提取和查询相关的词语,他们通过词语间的依赖性来查找相关词语,例如Houetal[36]提出在TREC数据集上挖掘高阶相关词汇关系的挖掘算法。另外,许多的研究工作关注利用外部的资源来改进查询扩展。他们发现查询扩展失败的一个原因是在本地的数据集中缺少相关的文档。因此,查询扩展的吸能可以通过利用外部的知识来进行提高。一些外部的数据集的利用被提出来了,例如使用查询日志[10],WordNet[9],维基百科[34],ConceptNet[13]。近来,基于vanRijsbergen[25]提出的关联假设,一些研究者试图通过获取语义关系来进行查询扩展。早期的全局的查询扩展技术[11][12][33]目标基于单词的共现次数来决定单词间的语义关系的强度。随着人为编辑的通用目标或者特定域的本体提供了为查询扩展提供了高质量的词语间的关联。Yin等提出了一种利用URL图基于随机游走的扩展方法[12]。Voorhees[32]通过实验确定了利用WordNet的查询扩展方法的一个上界。Vallet等[3]利用本体的查询语言来搜索相关的文档。Nagypal等[20]利用本体和向量模型的融合。Braga等[2]利用本体来抽取和过滤域信息通过多重域。Ozcan等[4]利用本体和WordNet的相似词来表达概念。Meij等[16]展示了区别性的文档注释使用特定域的本体,例如MeSH能够非常有效的提高检索效果。除了提到的使用语义的资源来做查询扩展的实验,一些结合了多重资源的方法也被提了出来。Mandala等[31]提出了一种融合三种不同的词库来进行查询扩展。Bodner等[27]融合了WordNet和共现词库的查询扩展。Bai等[26]提出了一种查询扩展方法,这种方法基于结合单词的共现关系,HAL,全局和局部的计算来得分。在Collins-Thompson和Callan[30]的工作中,马尔科夫链模型被用于查询扩展,这个模型通过融合多种关于单词关联模型的知识来实现。在Cao
您可能关注的文档
- 基于游客行为的城市公园景观设计研究——以杭州花港观鱼公园为例-study on landscape design of city parks based on tourists' behavior - a case study of huagang guanyu park in hangzhou.docx
- 基于游客偏好与满意度的影视旅游地管理分析——以热带天堂森林公园为例-analysis on the management of movie and tv tourist destinations based on tourists' preferences and satisfaction - a case study of tropical paradise forest park.docx
- 基于游客体验的休闲旅游城市品牌塑造分析——以杭州市为例-analysis on brand building of leisure tourism city based on tourists' experience - taking hangzhou city as an example.docx
- 基于游客体验的休闲旅游城市品牌塑造研究--以杭州市为例-research on brand building of leisure tourism city based on tourists' experience - a case study of hangzhou city.docx
- 基于游客需求的斯洛伐克中国旅游市场开发研究-research on the development of chinese tourism market in slovakia based on tourists' demand.docx
- 基于游憩理念的城市传统商业区更新改造——以西安民乐园商业区规划设计为例-renewal and renovation of traditional urban commercial district based on recreation concept a case study of the planning and design of the commercial district of xinmin paradise in the w.docx
- 基于游人行为 心理的公园地面铺装设计探析-analysis of park ground pavement design based on tourists' behavior psychology.docx
- 基于有机建筑理论的现代城市景观设计分析-analysis of modern urban landscape design based on organic architecture theory.docx
- 基于有限差分心电模型模拟在cpu与多mic协处理器平台并行与优化-parallel and optimization of simulation based on finite difference ecg model between cpu and multi - mic coprocessor platform.docx
- 基于有限理性的政府投资项目决策分析-decision analysis of government investment projects based on bounded rationality.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 2025年自来水供应专属承包合同样本版.docx VIP
- 2022化工安全与环保第二版课后题答案最新版(完整版).docx VIP
- ASUS华硕主板大师系列Z97-A 用户使用手册 (繁体中文).pdf
- 智能金融:AI 驱动的金融变革.pptx
- 人工智能在心血管无创影像中的应用:前沿技术与临床价值.pdf VIP
- 2025年氢燃料电池在数据中心储能应用趋势.docx
- 2026年中国铁路上海局集团有限公司招聘普通高校毕业生1236人备考题库及答案详解(考点梳理).docx VIP
- 井工煤矿复工复产开工第一课教案.docx VIP
- 社区居务监督培训课件.ppt VIP
- 心灵终结单位全代码.doc VIP
原创力文档

文档评论(0)