基于查询关联模型排序支持向量机方法.docVIP

下载本文档

4
0
约7.42千字
约 14页
2018-08-30 发布于福建
举报
版权申诉

基于查询关联模型排序支持向量机方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于查询关联模型排序支持向量机方法

基于查询关联模型排序支持向量机方法　　摘要：排序学习是信息检索、机器学习和数据挖掘等领域的重要研究课题，其核心任务是建立排序损失函数并进行优化而获得排序模型。近年来，排序支持向量机RSVM（ranking support vector machine）以其理论性和有效性，被广泛应用到如文本检索、网页搜索、自然语言处理等领域。然而，基于排序偏序对构建损失函数的排序支持向量机算法具有以下不足：1）在不同的查询偏序对数目不同时，模型训练过程将偏向偏序对多的查询；2）其损失函数的优化过程并未考虑到排序性能评价指标。上述缺点导致排序支持向量机在实际应用中性能受到局限。因此，本文提出基于查询关联模型的排序支持向量机模型，在查询的偏序对数目均一化的基础上，加入反映排序性能评价指标的查询关联模型对排序模型进行正则化，并推导出高效的策略获取排序模型。实验结果表明，本文提出的方法在多个数据集上排序性能较好，优于传统排序支持向量机、均一化偏序对数目的排序支持向量机等算法。　　关键词：信息检索；排序学习；查询关联模型；排序支持向量机　　排序在信息检索和数据挖掘等领域中诸多应用中均占据重要地位[1]。近年来，使用机器学习技术来进行排序已发展为新的研究分支“排序学习”，是目前信息检索、数据挖掘、机器学习和生物计算等领域研究的热点问题。不失一般性，本文以信息检索为例进行排序学习的研究。　　在信息检索中，排序学习的主要过程为：“查询-文档”对集合被标注后，分为训练集、验证集、测试集；排序模型由训练集训练生成，通过验证集进行参数调节，最终由测试集进行测试并采用MAP[1]和NDCG[2]等指标进行评估。排序学习将传统排序问题转化为从排序特征到标注的学习问题，通过对不同任务或应用进行具体分析，建立不同的排序数学模型和损失函数并进行优化，可以获得适用于不同任务或应用的排序模型。　　现有的众多排序算法如Prank[3]、Rank SVM等，排序支持向量?C（RSVM）是主流的方法之一，其排序性能好而且理论性强。RSVM也具有不足之处：1）当不同的查询偏序对数目不同时，模型训练过程将偏向偏序对多的查询；2）其损失函数的优化过程并未考虑到排序性能评价指标。上述缺点导致RSVM在实际应用中性能受到局限。　　本文在IRSVM的工作基础上，提出基于查询关联模型的排序支持向量机来弥补第二个不足之处。具体地，在查询偏序对数目均一化的基础上，加入反映排序性能评价指标的查询关联模型对排序模型进行正则化。实验结果表明，本文提出的方法在多个数据集合上排序性能较好，优于传统排序支持向量机（RSVM）、均一化偏序对数目的排序支持向量机（IRSVM）等算法。　　1 排序支持向量机模型及分析　　1.1 排序支持向量机模型　　令为“查询-文档”对的特征向量空间，代表特征维数，　　代表特征向量空间对应的标注值，代表标注等级，用　　表示一个“查询-文档”对的特征和标注。　　给定训练集合，每一个查询均对应自身的文档集合，可表示为，整个训练集合可表示为。　　排序学习模型通过训练集上学习得到排序函数，满足当标注　　时，，其中表示偏序关系。整个训练过程在排序函数空间中寻找最小化损失的函数：　　（1）　　在排序支持向量机（RSVM）模型中是特征的线性函数，其中表示点积。基于已有训练集合S，RSVM生成新的训练数据集S，对S中同一查询下的具有不同标签，的特征，构建，满足当时，否则为。为表示简便，将表示为，其中代表所有生成偏序对个数。RSVM的模型如下[4][5]：　　（2）　　其中为范数的模型复杂度惩罚项，为松弛变量，为用于平衡模型复杂度和偏序对损失的参数，训练优化后会得到排序模型w*，最终用于测试时。　　1.2 模型分析讨论　　对公式（2）的分析得出，RSVM存在以下问题：　　1）当不同的查询其偏序对数目不同时，模型训练过程将偏向偏序对多的查询。　　针对上述问题，Cao[6]等人提出IRSVM算法，对不同查询下的文档偏序对个数进行均一化，从而使得所有查询在优化时被同等对待，其模型描述如下[4]：　　（3）　　其中表示样本所在查询的偏序对个数。　　2）RSVM损失函数的优化过程并未考虑到排序性能评价指标。由公式（2）的形式化描述可知，在损失函数中并未考虑到通用的评价指标，如MAP[1]，NDCG[2]等因素，模型的损失和惩罚都建立在偏序对的基础上。另一方面，现有工作中并无在RSVM上加入性能评价指标优化项。本文基于实验，提出利用查询关联模型替代排序评价指标，选择出反映排序评价指标的关联模型并直接融入RSVM 的优化目标，且推导出高效的优化策略得出最