探究LTR(学习排序)各方法的优劣性.docxVIP

下载本文档

30
0
约 5页
2016-12-16 发布于重庆
举报
版权申诉

探究LTR(学习排序)各方法的优劣性.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

探究LTR（学习排序）各方法的优劣性班级号姓名 xx2015.05.30前言随着互联网的快速发展，大数据时代的来临，如何对数据进行高效的分类和检索成为了一个重要的研究课题。现如今，我们网上在寻找资料的时候，一定会使用各式各样的搜索引擎。一个好的搜索引擎，能够让用户很方便快捷的找到需要的答案。那么，影响搜索引擎搜索速度和准确度的关键点在哪呢？我们都知道，搜索引擎的工作原理：先由网页爬虫抓取到足够多的网页；再处理这些网页，例如，提取关键字，建立索引库和索引等；然后是根据用户输入的查询条件，在索引库中快速的检出文档；最后是最关键的一步，搜索引擎中的评分函数（ranking function）会对每一个检出的文档进行打分，然后根据打分的结果，对这些文档进行排序，最后呈现在用户面前的，就是一个和查询条件的相关性从高到底排列的查询结果。在最后一步中，排序的结果严重影响着用户的查询体验。我们都使用过搜索引擎，而且都会有一个习惯，对于搜索引擎返回的几十页数据，我们只会点开前几页的搜索结果，而往往是这前几页的结果，几乎完全决定着一个搜索引擎的好坏。在搜索引擎的演变过程中，出现过很多排序方法，例如传统的人工打分排序，现在的Pointwise单文档方法，Pairwise文档对方法，Listwise文档列表方法。而在这些方法中，Listwise依靠它的高性能，成为了现代搜索引擎领域研究的主流的排序方法。现如今，人们还在不断寻找更好的模型和文档评价标准，来进一步提高Listwise方法的排序效率。那么到底是什么原因让Listwise方法相较于其他方法有如此高的先进性，以及该方法现在的瓶颈有哪些，下面，我便开始探究。主题传统的排序方法比较简单，通过构造一个打分函数，该函数通过各个文档和用户查询的相关度差异，对文档进行排序。而影响相关度的因素有很多，例如查询词在文档中的词频信息，查询词的IDF信息等等，而这些影响因数构成了打分函数的参数，对于传统的排序模型（人工标注训练数据），如果参数过多，会使得经验方法的调参非常困难。既然人工不行，于是，人们很自然的想到用机器学习来解决这个问题。因此，就产生了我们要讨论的学习排序（Learning to Rank）。目前，学习排序方法分为3种：单文档方法、文档对方法和文档列表方法。单文档方法比较简单，该方法就像是知道两个点的坐标，确定一条直线的函数关系式一样。对于一条查询query，与其相关的文档集合为：{}，然后，对这n个(query，)查询-文档对抽取特征并表示成特征向量，这里用X,Y,Z表示抽取出的3个特征向量。然后对于“曲线函数”Score（q，d）= aX+bY+cZ+d，我们可以规定Score大于一个阀值时，认为是相关的。带入变量X,Y,Z，由这些训练数据，可以确认出最优的常量a,b,c,d。到此，机器学习就结束了，打分函数也确定了。以后，对于新的查询和该查询的相关文档，我们就能用确定出来的打分函数来判断查询和文档的相关性。但是，这种方法有很大的局限性，因为对于不同的查询，他们的查询-文档对的特征向量可能相同，但他们的Score阀值却是不同的，就像是一个点，它位于两条线的交点上，虽然两条线上都能确定这个点，但是点在两条线上的含义却是不一样的。例如：点在a线上代表着年龄标准，而在b线上却代表着身高标准。所以，这种方法是有前提的，它假设所有的相关度是查询无关的，但事实说明了，并非如此。而且，对于Score相同的文档，也无法进行排序。文档对方法则完全对同一个查询里的文档集生成训练样本，它的主要思想是将Ranking问题形式化为二元分类问题。之所以被称为文档对方法，是因为这种机器学习方法的训练过程和训练目标，是判断任意两个文档组成的文档对D0C1，D0C2是否满足顺序关系，即判断是否D0C1应该排在DOC2的前面。根据人工标注的相关性得分，我们可以按照得分大小顺序得到相应的文档对，将每个文档对的文档转换为特征向量后，就形成了一个具体的训练实例。然后再由学习方法对这些实例进行学习。具体的学习方法有很多，在此就不赘述了。虽然文档对方法不对相关度做独立假设，但这种方法仍存在功能上缺点：(1).这种方法只考虑了两个文档之间的相对位置，判断谁在谁的前面，并不考虑文档在文档列表上的位置。而在前言中我们说过，用户只会对搜索结果的前几页数据进行查看，这需要我们对文档列表的前几页高相关性的文档再做更好的区分。(2).不同查询的相关文档集的大小也会影响排序模型的构建结果，例如，a查询只有10条相关文档，而b查询有10000条相关文档，那么模型几乎会忽略掉a的10条文档，使得模型对a查询的区分度不高。还有一个重要的因素也会影响文档对方法的排序性能。以Ranking SVM为例，它优化的目标是使得正负