- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于查询关联模型排序支持向量机方法
基于查询关联模型排序支持向量机方法
摘要:排序学习是信息检索、机器学习和数据挖掘等领域的重要研究课题,其核心任务是建立排序损失函数并进行优化而获得排序模型。近年来,排序支持向量机RSVM(ranking support vector machine)以其理论性和有效性,被广泛应用到如文本检索、网页搜索、自然语言处理等领域。然而,基于排序偏序对构建损失函数的排序支持向量机算法具有以下不足:1)在不同的查询偏序对数目不同时,模型训练过程将偏向偏序对多的查询;2)其损失函数的优化过程并未考虑到排序性能评价指标。上述缺点导致排序支持向量机在实际应用中性能受到局限。因此,本文提出基于查询关联模型的排序支持向量机模型,在查询的偏序对数目均一化的基础上,加入反映排序性能评价指标的查询关联模型对排序模型进行正则化,并推导出高效的策略获取排序模型。实验结果表明,本文提出的方法在多个数据集上排序性能较好,优于传统排序支持向量机、均一化偏序对数目的排序支持向量机等算法。
关键词:信息检索;排序学习;查询关联模型;排序支持向量机
排序在信息检索和数据挖掘等领域中诸多应用中均占据重要地位[1]。近年来,使用机器学习技术来进行排序已发展为新的研究分支“排序学习”,是目前信息检索、数据挖掘、机器学习和生物计算等领域研究的热点问题。不失一般性,本文以信息检索为例进行排序学习的研究。
在信息检索中,排序学习的主要过程为:“查询-文档”对集合被标注后,分为训练集、验证集、测试集;排序模型由训练集训练生成,通过验证集进行参数调节,最终由测试集进行测试并采用MAP[1]和NDCG[2]等指标进行评估。排序学习将传统排序问题转化为从排序特征到标注的学习问题,通过对不同任务或应用进行具体分析,建立不同的排序数学模型和损失函数并进行优化,可以获得适用于不同任务或应用的排序模型。
现有的众多排序算法如Prank[3]、Rank SVM等,排序支持向量?C(RSVM)是主流的方法之一,其排序性能好而且理论性强。RSVM也具有不足之处:1)当不同的查询偏序对数目不同时,模型训练过程将偏向偏序对多的查询;2)其损失函数的优化过程并未考虑到排序性能评价指标。上述缺点导致RSVM在实际应用中性能受到局限。
本文在IRSVM的工作基础上,提出基于查询关联模型的排序支持向量机来弥补第二个不足之处。具体地,在查询偏序对数目均一化的基础上,加入反映排序性能评价指标的查询关联模型对排序模型进行正则化。实验结果表明,本文提出的方法在多个数据集合上排序性能较好,优于传统排序支持向量机(RSVM)、均一化偏序对数目的排序支持向量机(IRSVM)等算法。
1 排序支持向量机模型及分析
1.1 排序支持向量机模型
令 为“查询-文档”对的特征向量空间, 代表特征维数,
代表特征向量空间对应的标注值, 代表标注等级,用
表示一个“查询-文档”对的特征和标注。
给定训练集合 ,每一个查询 均对应自身的文档集合,可表示为 ,整个训练集合可表示为 。
排序学习模型通过训练集上学习得到排序函数 ,满足当标注
时, ,其中 表示偏序关系。整个训练过程在排序函数空间 中寻找最小化损失的函数 :
(1)
在排序支持向量机(RSVM)模型中 是特征 的线性函数 ,其中 表示点积。基于已有训练集合S,RSVM生成新的训练数据集S,对S中同一查询下的具有不同标签 , 的特征 ,构建 ,满足当 时 ,否则为 。为表示简便,将 表示为 ,其中 代表所有生成偏序对个数。RSVM的模型如下[4][5]:
(2)
其中 为 范数的模型复杂度惩罚项, 为松弛变量, 为用于平衡模型复杂度和偏序对损失的参数,训练优化后会得到排序模型w*,最终用于测试时 。
1.2 模型分析讨论
对公式(2)的分析得出,RSVM存在以下问题:
1)当不同的查询其偏序对数目不同时,模型训练过程将偏向偏序对多的查询。
针对上述问题,Cao[6]等人提出IRSVM算法,对不同查询下的文档偏序对个数进行均一化,从而使得所有查询在优化时被同等对待,其模型描述如下[4]:
(3)
其中 表示样本 所在查询的偏序对个数。
2)RSVM损失函数的优化过程并未考虑到排序性能评价指标。由公式(2)的形式化描述可知,在损失函数中并未考虑到通用的评价指标,如MAP[1],NDCG[2]等因素,模型的损失和惩罚都建立在偏序对的基础上。另一方面,现有工作中并无在RSVM上加入性能评价指标优化项。本文基于实验,提出利用查询关联模型替代排序评价指标,选择出反映排序评价指标的关联模型并直接融入RSVM 的优化目标,且推导出高效的优化策略得出最
文档评论(0)