为搜索引擎学习最优的排序模型-网络数据科学与技术.pdfVIP

为搜索引擎学习最优的排序模型-网络数据科学与技术.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
为搜索引擎学习最优的排序模型-网络数据科学与技术

专题报道 第 3 卷 第 10 期 2007 年 10 月 为搜索引擎学习最优的排序 模型 刘铁岩 徐 君 李 航 马维英 关键词:搜索引擎 排序 微软亚洲研究院 的绝对信息,如一个网页和查询词是否非常相 引言 关、相关或不相关等;也可能是从搜索引擎的 用户行为中挖掘出来的相对信息,如某个网页 目前,网络搜索引擎已经成为人们日常生 是否比另外一个网页更加相关。为了从这些标 活中的重要工具,它可以帮助人们在信息海洋 注数据中学到最优的排序模型,通常需要定义 中定位有价值的内容。在搜索引擎的各个组成 3个部分:一是表征网页信息的特征向量(如 部分中,相关性排序模型直接决定了人们看到 词频、页面分级(PageRank)[1]等);二是模型 的搜索结果,因此,这种模型对于搜索引擎的 的基本形式(如线性、非线性等);三是用来 性能起着至关重要的作用。 控制学习过程的损失函数(它衡量了当前模型 在信息检索发展的历史上,人们提出了很 的排序结果和标注信息之间的差别)。极小化 多相关性排序模型,如BM25模型[11] 和语言模 损失函数可以得到与标注数据最吻合的模型参 型[17]等。这些模型对推动搜索技术发展起到过 数。经过优化的模型将用于回答新的查询词: 一定作用,但是也存在着一些问题:有的模型 给定新的查询词,首先通过倒排表找到包含该 建立在人们对搜索问题的主观理解之上,需要 查询词的网页,然后为每个网页提取特征向 根据经验人为设定模型参数;还有一些模型虽 量,并将排序模型应用到这些特征向量上,从 然可以从大量网页中学习不断调整参数,但无 而给每个网页输出一个分数,最后将网页按照 法利用用户的反馈信息对模型参数进行优化。 分数的降序进行排列并返回给用户。其大致流 由于用户提交不同的查询词,或者不同用户提 程如图1所示。 交相同的查询词都有可能代表不同的信息需 近年来,人们不仅将已有的机器学习算 求,因此,仅从研究者的主观理解,或者仅从 法应用到排序模型的训练当中,还为这个新课 网页数据中学习排序模型,都无法很好地解决 题开发了很多新算法。本文将着重介绍这方面 复杂的网络搜索问题。在这样的背景下,近年 的最新进展:基于网页列表的学习算法以及直 来研究人员开始尝试使用有监督的机器学习方 接优化信息检索评价准则的学习算法。在此之 法,即从用户标注或者反馈中学习最优的相关 前,先简要回顾这个领域的传统方法—基于网 性排序模型。 页对的学习算法。 为了学习最优的相关性排序模型,需要 一个训练数据集。该集合包含随机抽取的查询

文档评论(0)

wujianz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档