- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探究LTR(学习排序)各方法的优劣性班级号姓名 xx2015.05.30前言随着互联网的快速发展,大数据时代的来临,如何对数据进行高效的分类和检索成为了一个重要的研究课题。现如今,我们网上在寻找资料的时候,一定会使用各式各样的搜索引擎。一个好的搜索引擎,能够让用户很方便快捷的找到需要的答案。那么,影响搜索引擎搜索速度和准确度的关键点在哪呢?我们都知道,搜索引擎的工作原理:先由网页爬虫抓取到足够多的网页;再处理这些网页,例如,提取关键字,建立索引库和索引等;然后是根据用户输入的查询条件,在索引库中快速的检出文档;最后是最关键的一步,搜索引擎中的评分函数(ranking function)会对每一个检出的文档进行打分,然后根据打分的结果,对这些文档进行排序,最后呈现在用户面前的,就是一个和查询条件的相关性从高到底排列的查询结果。在最后一步中,排序的结果严重影响着用户的查询体验。我们都使用过搜索引擎,而且都会有一个习惯,对于搜索引擎返回的几十页数据,我们只会点开前几页的搜索结果,而往往是这前几页的结果,几乎完全决定着一个搜索引擎的好坏。在搜索引擎的演变过程中,出现过很多排序方法,例如传统的人工打分排序,现在的Pointwise单文档方法,Pairwise文档对方法,Listwise文档列表方法。而在这些方法中,Listwise依靠它的高性能,成为了现代搜索引擎领域研究的主流的排序方法。现如今,人们还在不断寻找更好的模型和文档评价标准,来进一步提高Listwise方法的排序效率。那么到底是什么原因让Listwise方法相较于其他方法有如此高的先进性,以及该方法现在的瓶颈有哪些,下面,我便开始探究。主题传统的排序方法比较简单,通过构造一个打分函数,该函数通过各个文档和用户查询的相关度差异,对文档进行排序。而影响相关度的因素有很多,例如查询词在文档中的词频信息,查询词的IDF信息等等,而这些影响因数构成了打分函数的参数,对于传统的排序模型(人工标注训练数据),如果参数过多,会使得经验方法的调参非常困难。既然人工不行,于是,人们很自然的想到用机器学习来解决这个问题。因此,就产生了我们要讨论的学习排序(Learning to Rank)。目前,学习排序方法分为3种:单文档方法、文档对方法和文档列表方法。单文档方法比较简单,该方法就像是知道两个点的坐标,确定一条直线的函数关系式一样。对于一条查询query,与其相关的文档集合为:{},然后,对这n个(query,)查询-文档对抽取特征并表示成特征向量,这里用X,Y,Z表示抽取出的3个特征向量。然后对于“曲线函数”Score(q,d)= aX+bY+cZ+d,我们可以规定Score大于一个阀值时,认为是相关的。带入变量X,Y,Z,由这些训练数据,可以确认出最优的常量a,b,c,d。到此,机器学习就结束了,打分函数也确定了。以后,对于新的查询和该查询的相关文档,我们就能用确定出来的打分函数来判断查询和文档的相关性。但是,这种方法有很大的局限性,因为对于不同的查询,他们的查询-文档对的特征向量可能相同,但他们的Score阀值却是不同的,就像是一个点,它位于两条线的交点上,虽然两条线上都能确定这个点,但是点在两条线上的含义却是不一样的。例如:点在a线上代表着年龄标准,而在b线上却代表着身高标准。所以,这种方法是有前提的,它假设所有的相关度是查询无关的,但事实说明了,并非如此。而且,对于Score相同的文档,也无法进行排序。文档对方法则完全对同一个查询里的文档集生成训练样本,它的主要思想是将Ranking问题形式化为二元分类问题。之所以被称为文档对方法,是因为这种机器学习方法的训练过程和训练目标,是判断任意两个文档组成的文档对D0C1,D0C2是否满足顺序关系,即判断是否D0C1应该排在DOC2的前面。根据人工标注的相关性得分,我们可以按照得分大小顺序得到相应的文档对,将每个文档对的文档转换为特征向量后,就形成了一个具体的训练实例。然后再由学习方法对这些实例进行学习。具体的学习方法有很多,在此就不赘述了。虽然文档对方法不对相关度做独立假设,但这种方法仍存在功能上缺点:(1).这种方法只考虑了两个文档之间的相对位置,判断谁在谁的前面,并不考虑文档在文档列表上的位置。而在前言中我们说过,用户只会对搜索结果的前几页数据进行查看,这需要我们对文档列表的前几页高相关性的文档再做更好的区分。(2).不同查询的相关文档集的大小也会影响排序模型的构建结果,例如,a查询只有10条相关文档,而b查询有10000条相关文档,那么模型几乎会忽略掉a的10条文档,使得模型对a查询的区分度不高。还有一个重要的因素也会影响文档对方法的排序性能。以Ranking SVM为例,它优化的目标是使得正负
您可能关注的文档
最近下载
- 中华人民共和国国歌-教案.doc VIP
- 2025年高考(全国一卷)数学试题和答案.docx VIP
- 离散数学答案(刘玉珍_编着).doc VIP
- 人民版六年级《劳动》上册全套教学课件.pptx
- 《城市规划原理》第3章 城乡规划体制.ppt VIP
- 基于SOR理论的社交网络互动对旅游行为的影响.docx VIP
- 哈曼JBL Live 770NC 无线罩耳式自适应降噪耳机 配置指南 (中国)说明书用户手册.pdf
- 《城市规划原理》第3章城乡规划体制.pptx
- 2025年最新的BRCGS包装材料全球标准第7版全套管理手册及程序文件.docx VIP
- 激光原理及应用陈家璧主编习题解答.pdf VIP
文档评论(0)