基于主题的查询意图识别分析-计算机应用技术专业论文.docx

基于主题的查询意图识别分析-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Classified Index: TM301.2 U.D.C: 62-5 Dissertation for the Doctoral Degree in Engineering RESEARCH ON TOPIC BASED QUERY INTENT IDENTIFICATION Candidate: SONG Wei Supervisor: Prof. LI Sheng Associate Supervisor: Associate Prof. ZHANG Yu Academic Degree Applied for: Doctor of Engineering Specialty: Computer Application Technology A?liation: School of Computer Science and Technology Date of Defence: Mar, 2013 Degree-Conferring-Institution: Harbin Institute of Technology 摘 摘 要 哈尔 哈尔滨工业大学工学博士学位论文 摘 要 搜索引擎成为人们从互联网上快速获取信息的最主要途径之一。当前的搜 索引擎主要基于关键字匹配的搜索模式。然而用户输入的查询往往较短,导致 查询具有多种语义或包含有多个子主题。基于关键字匹配的搜索方式仅关注于 返回包含查询关键字的文档,而忽略了对查询背后用户真正的信息需求的识别 与匹配。对于具有复杂信息需求的查询,返回的搜索结果中包含有较多不符合 用户需要的噪声文档,无法充分满足用户需要。因此,开展查询意图识别相关 技术的研究,深入理解用户搜索意图是十分必要的。 查询意图是介于关键字查询与用户真实信息需求之间的一种中间形式,用 于表示用户的搜索目的。已有的查询意图理解研究集中于导航类查询的识别, 即判断查询的搜索目的是否是找到某一特定的网站。然而导航类查询仅占用户 输入的所有查询中较小的比例,更多的查询属于具有较为复杂的用户需求的信 息类查询。针对信息类查询进行全面、深层的查询意图理解是进一步提高搜索 引擎性能的关键技术。本文专注于信息类查询的意图表示、识别与应用。特别 地,从查询表层字符信息上升到主题层面,采取不同的主题形式来形式化地表 示查询背后的搜索意图,从多个角度理解查询意图,并基于查询意图提供新颖 的搜索服务与搜索模式。本文的主要研究内容可概括如下: (1)针对查询歧义问题,以主题类别表示查询意图,将查询映射到给定 的主题类别体系中,即将查询意图识别归结为查询主题分类问题。利用主题体 系的结构特征,能够有效地描述查询意图信息,有利于用户信息需求空间结构 的构建。本文提出一种基于用户自动标注资源的查询主题分类方法:利用网络 上人工构建的主题网站目录对网页URL进行主题标注;基于搜索引擎的查询日 志与搜索结果,构建用户查询与URL的关联关系;根据URL的主题自动地对查 询进行主题标注。这一过程仅需要很少的人工参与,却可以获得海量的有主题 标注的查询,基于有标注的查询得以训练基于统计的查询分类器。方法改善了 查询分类缺少标注查询的数据稀疏问题,不仅分类准确率高而且具有较高在线 处理效率,可以应用于多种查询意图识别相关的应用场景。 (2)针 对 查 询 宽 泛 问 题,以 一 组 查 询 子 主 题 表 示 查 询 意 图。查 询 子 主 题 是 指 表 达 了 用 户 搜 索 意 图 的 字 符 串 短 语,如 原 始 查 询 为“微 软”,则“微 软研究院”或“微软Surface”可认为是原始查询的子主题,其中“研究院”和 “Surface”称作意图短语表示用户具体的信息需求。查询子主题不依赖于预先 - I - - - PAGE VIII - - - III - 指定的类别体系,能够在更细致的层面对查询意图进行刻划,是对查询主题分 类的补充。查询子主题挖掘的关键问题在于如何获得查询子主题候选,以及如 何将具有相似意图的子主题候选有效地组织在一起。本文提出基于聚类的查 询子主题挖掘方法,该方法主要分为4个步骤: 查询关键词提取,查询子主题 候选抽取、查询子主题候选聚类以及查询子主题排序。本文分析了从各个信息 源中抽取的查询子主题候选的特点,并应用适于任务需要的聚类算法。实验表 明,提出的方法获得了比商业搜索引擎相关搜索更好的性能。 (3)针 对 查 询 意 图 与 用 户 相 关 的 问 题,以 用 户 主 题 兴 趣 表 示 查 询 意 图, 从用户个人兴趣的角度个性化地表示查询意图。提交同一查询的不同用户可能 具有不同的查询意图,为了更准确地判断每一位用户具体的查询意图需要考察 用户背景与兴趣等个人信息。本文基于概率主题模型对用户搜

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档