基于用户时间意图分析的学术文本检索研究.pdf

基于用户时间意图分析的学术文本检索研究.pdf

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

硕士学位论文基于用户时间意图分析的学术文本检索研究

摘要

学术搜索引擎已经成为科研人员获取学术信息的重要途径之一。如何正确理解用户

的查询意图并提供符合用户需求的信息资源成为了各类学术搜索引擎的一个重要挑战。

查询时间意图(简称“时间意图”)作为用户查询意图需要考虑的重要方面,受到了研

究人员的广泛关注。通过识别用户检索中的时间意图以及标识文本内容中的时间信息,

进而将查询和文档的时间相似性融入到检索模型中,可以有效提高搜索引擎的检索结果

质量。目前,对于时态信息检索的研究多基于机器学习技术和传统检索模型,且对于学

术检索领域的应用相对较少。在此背景下,本研究立足于大规模学术检索日志,采用深

度学习技术,构建时间表达式抽取模型、时间意图识别模型,并将查询和文档的时间相

似性融入学术文本检索模型中,进而提升学术用户的文献搜索效率。

时间表达式抽取在时态信息检索领域中具有重要作用。本文基于清华汉语树库、宾

州汉语树库和部分图书情报摘要数据,分别使用机器学习方法CRF模型和深度学习方

法Bi-LSTM、Bi-LSTM-CRF、BERT、RoBerta-wwm-ext模型进行全面细致的对比实验,

进而获得性能良好的时间表达式识别模型。实验证明BERT模型的各项性能指标均优于

其他方法,调和平均值最高达到96.13%。

通过识别用户检索中的时间意图,能够进一步优化检索结果排序列表。本文基于

NTCIR会议提出的TQIC时间意图分类体系,构建学术用户时间意图标注体系,基于字

词、显式和隐式时间特征,使用SVM、TextCNN、Bi-LSTM-attention、BERT四种分类

模型进行时间意图识别的实验研究,实验结果显示基于BERT模型结合字词、显式和隐

式时间特征的时间意图识别模型具有较好的性能,调和平均值F1为98%,结果表明融

入查询的时间特征能够有效提高学术用户检索中的时间意图识别效果。

在检索排序过程中,考虑时间特征能够显著提高具有时间意图的查询的检索质量。

但在学术搜索场景中,由于缺乏相应的语料,还未得到验证。基于此背景,本文在传统

信息检索模型以及基于深度学习的检索模型中融入查询和文档的时间相似性进而构建

融入时间意图的学术检索模型,结果表明,融入时间意图维度特征后,检索模型的性能

有了显著提升,其中,深度相关性匹配模型DRMM在融入时间意图维度特征后,模型

性能最佳,在NDCG@1,NDCG@3,NDCG@5,NDCG@10,NDCG@15等检索评价

指标与传统的BM25模型相比分别提升了13.2%,7.3%,8.9%,8.2%,12.3%。

关键词:学术文本,时间意图,时态信息检索,时间信息抽取,检索模型

I

Abstract硕士学位论文

Abstract

Academicsearchenginehasbecomeoneoftheimportantwaysforresearcherstoobtain

academicinformation.Howtocorrectlyunderstandusersqueryintentionsandprovide

informationresourcesthatmeetusersneedshasbecomeanimportantchallengeforallkinds

ofacademicsearchengines.Asanimportantaspectofusers’queryintention,querytemporal

intention(referredtoastemporalintention)hasbeenwidelyconce

您可能关注的文档

文档评论(0)

余安文 + 关注
实名认证
内容提供者

收集文档

1亿VIP精品文档

相关文档