- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
在信息检索中,网页排序是一个关乎用户体验的重要问题,在海量的数据中
如何将用户最关心的网页最先呈现给用户越来越受到人们的重视。排序学习作为
最新的研究热点,在网页排序中发挥着举足轻重的作用。
排序学习中,一个关键的问题是如何开发一个模型来直接优化信息检索的评
DiscountedCumulative
价准则,如平均精度(MAP)、NDCG(NormalizedGainl,很
多方法已经被提出并且被证明是有效的。
在排序学习中需要大量的标注数据作为训练集,而数据标注是非常耗费人力
的,能不能建立一种通用的模型,只使用一个领域的标注数据就可以为其他领域
的数据做预测,这种好奇心驱使着研究人员做出了很多努力,并且也取得了一定
的成果。本文中提出一种基于重要性加权方法的直推式模型,通过直接估计测试
数据和训练数据的密度比,可以给每个训练查询确定一个权重,体现了训练数据
对模型的重要性,针对特定的测试数据训练出特定的排序模型。
信息检索的评价准则是不连续的,很多研究者都希望通过寻找一个评价准则
的连续上界,然后再在这个上界上做优化。本文从直接对不连续的评价准则进行
优化的角度考虑,同时借用AdaBoost和AdaRank的思想,建立了一个直推式模
优于AdaRank、RankSVM和RankBoost。
进化算法是一类借鉴生物界的进化规律演化而来的随机化搜索方法,其主要
特点是直接对结构对象进行操作,不存在求导和函数连续性的限定,具有内在的
隐并行性和更好的全局寻优能力,适合用于对不连续的信息检索评价准则进行寻
优,本文分别建立了基于遗传算法和微粒群算法的排序模型GARank和
PSORank,实验结果表明,本文提出的基于进化算法的模型能够比当前流行的排
序模型取得更好的性能。
关罐词:排序学习直接寻优直推式学习遗传算法微粒群算法
ABSTRACT
isan issuerelatedtouser ininformationretrieval,
Rankingimportant experience
a
result has moreandmoreattention.As
theretrieved
howtorank correctlygained
in
torank a role ranking.
newresearch veryimportantpage
focus,learningplays
torankis to that
thecentralissuesin algorithms
Oneof leaming develop
usedin
construct models evaluationmeasures
ranking bydirectlyoptimizing
Normalized
retrievalsuchasMean Precision(MAP)and
information Average
文档评论(0)