为搜索引擎学习最优的排序模型-网络数据科学与技术.pdfVIP

下载本文档

1
0
约1.39万字
约 6页
2017-09-02 发布于天津
举报
版权申诉

为搜索引擎学习最优的排序模型-网络数据科学与技术.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

为搜索引擎学习最优的排序模型-网络数据科学与技术

专题报道第 3 卷第 10 期 2007 年 10 月为搜索引擎学习最优的排序模型刘铁岩徐君李航马维英关键词：搜索引擎排序微软亚洲研究院的绝对信息，如一个网页和查询词是否非常相引言关、相关或不相关等；也可能是从搜索引擎的用户行为中挖掘出来的相对信息，如某个网页目前，网络搜索引擎已经成为人们日常生是否比另外一个网页更加相关。为了从这些标活中的重要工具，它可以帮助人们在信息海洋注数据中学到最优的排序模型，通常需要定义中定位有价值的内容。在搜索引擎的各个组成 3个部分：一是表征网页信息的特征向量（如部分中，相关性排序模型直接决定了人们看到词频、页面分级（PageRank）[1]等）；二是模型的搜索结果，因此，这种模型对于搜索引擎的的基本形式（如线性、非线性等）；三是用来性能起着至关重要的作用。控制学习过程的损失函数（它衡量了当前模型在信息检索发展的历史上，人们提出了很的排序结果和标注信息之间的差别）。极小化多相关性排序模型，如BM25模型[11] 和语言模损失函数可以得到与标注数据最吻合的模型参型[17]等。这些模型对推动搜索技术发展起到过数。经过优化的模型将用于回答新的查询词：一定作用，但是也存在着一些问题：有的模型给定新的查询词，首先通过倒排表找到包含该建立在人们对搜索问题的主观理解之上，需要查询词的网页，然后为每个网页提取特征向根据经验人为设定模型参数；还有一些模型虽量，并将排序模型应用到这些特征向量上，从然可以从大量网页中学习不断调整参数，但无而给每个网页输出一个分数，最后将网页按照法利用用户的反馈信息对模型参数进行优化。分数的降序进行排列并返回给用户。其大致流由于用户提交不同的查询词，或者不同用户提程如图1所示。交相同的查询词都有可能代表不同的信息需近年来，人们不仅将已有的机器学习算求，因此，仅从研究者的主观理解，或者仅从法应用到排序模型的训练当中，还为这个新课网页数据中学习排序模型，都无法很好地解决题开发了很多新算法。本文将着重介绍这方面复杂的网络搜索问题。在这样的背景下，近年的最新进展：基于网页列表的学习算法以及直来研究人员开始尝试使用有监督的机器学习方接优化信息检索评价准则的学习算法。在此之法，即从用户标注或者反馈中学习最优的相关前，先简要回顾这个领域的传统方法—基于网性排序模型。页对的学习算法。为了学习最优的相关性排序模型，需要一个训练数据集。该集合包含随机抽取的查询