- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
硕士学位论文基于用户时间意图分析的学术文本检索研究
摘要
学术搜索引擎已经成为科研人员获取学术信息的重要途径之一。如何正确理解用户
的查询意图并提供符合用户需求的信息资源成为了各类学术搜索引擎的一个重要挑战。
查询时间意图(简称“时间意图”)作为用户查询意图需要考虑的重要方面,受到了研
究人员的广泛关注。通过识别用户检索中的时间意图以及标识文本内容中的时间信息,
进而将查询和文档的时间相似性融入到检索模型中,可以有效提高搜索引擎的检索结果
质量。目前,对于时态信息检索的研究多基于机器学习技术和传统检索模型,且对于学
术检索领域的应用相对较少。在此背景下,本研究立足于大规模学术检索日志,采用深
度学习技术,构建时间表达式抽取模型、时间意图识别模型,并将查询和文档的时间相
似性融入学术文本检索模型中,进而提升学术用户的文献搜索效率。
时间表达式抽取在时态信息检索领域中具有重要作用。本文基于清华汉语树库、宾
州汉语树库和部分图书情报摘要数据,分别使用机器学习方法CRF模型和深度学习方
法Bi-LSTM、Bi-LSTM-CRF、BERT、RoBerta-wwm-ext模型进行全面细致的对比实验,
进而获得性能良好的时间表达式识别模型。实验证明BERT模型的各项性能指标均优于
其他方法,调和平均值最高达到96.13%。
通过识别用户检索中的时间意图,能够进一步优化检索结果排序列表。本文基于
NTCIR会议提出的TQIC时间意图分类体系,构建学术用户时间意图标注体系,基于字
词、显式和隐式时间特征,使用SVM、TextCNN、Bi-LSTM-attention、BERT四种分类
模型进行时间意图识别的实验研究,实验结果显示基于BERT模型结合字词、显式和隐
式时间特征的时间意图识别模型具有较好的性能,调和平均值F1为98%,结果表明融
入查询的时间特征能够有效提高学术用户检索中的时间意图识别效果。
在检索排序过程中,考虑时间特征能够显著提高具有时间意图的查询的检索质量。
但在学术搜索场景中,由于缺乏相应的语料,还未得到验证。基于此背景,本文在传统
信息检索模型以及基于深度学习的检索模型中融入查询和文档的时间相似性进而构建
融入时间意图的学术检索模型,结果表明,融入时间意图维度特征后,检索模型的性能
有了显著提升,其中,深度相关性匹配模型DRMM在融入时间意图维度特征后,模型
性能最佳,在NDCG@1,NDCG@3,NDCG@5,NDCG@10,NDCG@15等检索评价
指标与传统的BM25模型相比分别提升了13.2%,7.3%,8.9%,8.2%,12.3%。
关键词:学术文本,时间意图,时态信息检索,时间信息抽取,检索模型
I
Abstract硕士学位论文
Abstract
Academicsearchenginehasbecomeoneoftheimportantwaysforresearcherstoobtain
academicinformation.Howtocorrectlyunderstandusersqueryintentionsandprovide
informationresourcesthatmeetusersneedshasbecomeanimportantchallengeforallkinds
ofacademicsearchengines.Asanimportantaspectofusers’queryintention,querytemporal
intention(referredtoastemporalintention)hasbeenwidelyconce
您可能关注的文档
- 基于失真风险测度的鲁棒优化投资组合模型.pdf
- 基于知识图谱的在线社区搜索推荐.pdf
- 技术创新视角下金融产业集聚对区域全要素生产率的影响研究.pdf
- 空间视域下易地扶贫搬迁社区的治理研究——以凉山州M社区为例.pdf
- 面向知识创新的科研众包平台运行机制研究.pdf
- 南京市S社区“网格+网络”联动治理对策研究.pdf
- 嵌入、协同与生产:“红色物业”何以产生社区治理效能 ——基于南京市的多案例分析.pdf
- 嵌入性视角下 乡村精英参与产业振兴的路径研究 ——基于安庆市T村茶叶产业发展的案例分析.pdf
- 数字普惠金融对区域创新能力的影响研究.pdf
- 随迁老人社区融入的路径研究 ——基于三种类型的案例分析.pdf
- 第三单元解决问题的策略 三年级下册数学高频考点重难点讲义(苏教版)(1).docx
- 4.4 解比例 数学六年级下册同步培优讲义(苏教版).docx
- 第四单元《根据方向与距离确定物体位置》(教案)五年级下册数学青岛版.docx
- (奥数典型题)第三讲 分解质因数 五年级下册数学思维拓展提升讲义(人教版).docx
- 2.2:2、5、3的倍数-人教版五年级数学下册第二单元:因数和倍数.docx
- 第六单元正比例和反比例 六年级下册数学高频考点重难点讲义(苏教版).docx
- 第二单元除数是一位数的除法 三年级下册数学高频考点重难点讲义(人教版).docx
- 第二单元-认识三角形和四边形 四年级数学下册提升(北师大版).docx
- 第一单元观察物体(三)五年级下册数学高频考点重难点讲义(人教版).docx
- 第九单元 数学广角—推理 二年级数学下册重难点知识点(人教版).docx
文档评论(0)