排序学习中Ranking SVM算法研究.docVIP

下载本文档

4
0
约3.28千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

排序学习中Ranking SVM算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

排序学习中Ranking SVM算法研究

排序学习中Ranking SVM算法研究　　【摘要】本文详细分析了基于支持向量机的排序学习算法Ranking SVM，通过选取不同的惩罚参数在OHSUMED数据集进行实验，衡量了算法在评价准则MAP和NDCG@n下的性能。　　【关键词】排序学习；排序支持向量机；算法　　Researh of Ranking SVM Algorithm in Learning to Rank 　　DING Wei-min 　　（Weifang University，Weifang Shandong 261061，China）　　【Abstract】The paper gives a detailed analysis about the algorithm of Ranking SVM.By experimenting with different penalty parameters on the data set of OHSUMED， the paper also gives the performance in the evaluation criteria of MAP and NDCG@n. 　　【Key words】Learning to rank；Ranking SVM；Algorithm 　　0 引言　　目前，对于互联网上海量的资源，人们主要通过向搜索引擎提交查询请求获取所需要的信息。搜索引擎根据用户交互组件收到的请求对网页索引数据库检索并将结果交付排序组件进行排序处理，最终以网页排序列表的形式呈现给用户[1]。虽然网页排序列表集合仍十分巨大，实际上用户访问的网页数量却很少，如文献[2]通过分析用户点击数据的日志信息，得到用户点击网页排名的平均值基本在第六条记录左右。因此，如何将相关性强的网页排在列表的前面，而将相关性弱的网页排在后边是搜索引擎排序组件中排序算法需要解决的主要问题，本文在分析排序学习算法Ranking SVM基础上，通过在数据集OHSUMED进行实验，给出算法在评价准则MAP和NDCG@n下的性能。　　1 排序学习与Ranking SVM算法[3，4] 　　排序学习的目的通过使用训练数据和机器学习技术自动创建排序模型。在排序学习中典型的设置是将特征向量和有序分类作为训练数据。通过在训练数据上进行学习得到排序模型，然应用到测试数据上。[5] 　　Ranking SVM算法是通过在训练集构造样本有序数据对的方式将排序问题转化为应用支持向量机方法解决的二分类问题。具体描述为：针对训练集合构造有序数据对集合S={（x■■，x■■），z■}，x■■，x■■表示针对同一查询的返回文档，如果x■■，x■■组成顺序对，则z■值为+1表示。如果为逆序对，则z■值为-1。Ranking SVM算法表示的二次规划问题如（1）所示。　　min ■w■+C■ε■ 　　s.t. z??≥1-ε■ （1）　　？坌i：ε■≥0 　　由于对同一训练集合构造S得到的顺序对和逆序对是关于坐标原点对称的，因此我们只选取顺序对对（1）的求解。其中，l表示S中有序对的个数，w是特征权向量，C是一个惩罚参数，ε■为松弛因子。　　引入拉格朗日对偶公式，得到新的二次规划问题如（2）所示。　　max ■α■-■■■α■α■ （2）　　s.t. 0≤α■≤C i=1，2…l 　　通过求解上述二次规划问题，可以计算出最优解α*，依据公式（3）计算出最优特征权向量w*。　　w*=■α■ （3）　　如果w*是最优权向量，对于一个新样本z，Ranking SVM算法的排序函数f■（z）根据公式（4）计算z的排序得分。　　f■（z）==■α■ （4）　　2 数据集与评价准则　　2.1 OHSUMED数据集[5] 　　为了计算Ranking SVM算法的性能，本文采用微软亚洲研究院发布的LETOR3.0数据子集之一OHSUMED进行评估，OHSUMED总共含有106个查询，有16140个查询-文档对。每个查询对应一定数量的查询结果文档。查询结果文档的相关度评价由人工判断，分为三个级别：完全相关（2），部分相关（1）和不相关（0）。　　2.2 评价准则[5，6] 　　本文中采用MAP，NDCG@n两种方法衡量排序算法的性能。MAP描述了多个查询的AP的平均值。其中AP定义如公式（5）。　　AP=■ （5）　　NDCG@n给出了文档的相关度评价分为多个级别的情况下排序算法性能的衡量方法，具体定义如公式（6）。　　NDCG@n=Z■∑■■2■-1，j=1■，j1 （6）　　3 实验与分析　　C值是惩罚参数，C值越大，对错分样本的约束程度就越大，分类平面的间隔就越小，说明算