- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进信息检索排序算法
一种改进信息检索排序算法
摘要:信息检索的核心问题就是在文档集中为用户检索出最相关的子文档集,并依靠排序算法对检索结果按照相关性进行排序,因此排序算法的优劣直接影响检索的效率.RLR算法改进了正则经验风险模型,大大减少了计算复杂度.通过设定一定范围的允许误差值,采用对称ε-insensitive对数亏损函数作为亏损函数,给出对称ε-insensitive对数亏损函数满足的一些特殊性质,进而改进RLR算法.实验表明新算法对文本排序是有效的.
关键词:信息检索; 排序; 边际; RLR算法
中图分类号:TP393.092
文献标识码:A文章编号:1672-8513(2010)01-0052-04
An Improved Algorithm for Ranking in Information Retrieval
GAO Wei,LIANG Li,XIA You?ming
(School of Computer Science and Information Technology, Yunnan Normal University, Kunming 650092, China)
Abstract:
The core function of information retrieval is to find out a subset of the most relevant documents from the files, and to rank the relevance of the results according to the ranking algorithm, so the effectiveness of the ranking algorithm directly affects the efficiency of retrieval. RLR algorithm improves the regularized empirical risk model, and greatly reduces the computational complexity. This has improved the RLR algorithm by allowing certain errors and using the symmetric ε-insensitive logistic loss function, and proved some properties of the symmetric ε-insensitive logistic loss function. Experiments show that the new algorithm is effective for text ranking.
Key words:
information retrieval; ranking; margin; RLR algorithm
信息检索的核心问题就是在文档集中为用户检索出最相关的子文档集,依靠排序算法对检索结果按照相关性进行排序,排序后的结果作为对用户所提出查询的回应.信息检索的性能由诸多因素决定,如查询表达式的质量以及索引、词干提取、无义词的停用、查询扩展等技术的应用等,但根本上它是由排序函数决定的.排序函数以某种准则计算文档表示与用户查询表示的匹配程度,并据此做出文档相对于用户的相关性判断,然后将文档按照相对于用户的相关程度降序排列,返回该有序文档列表作为检索的结果.
经典的网页排序算法是由Page提出的PageRank算法和Kleinberg提出的HITS算法.广义的排序算法不局限于网页的排序,且很多高效的排序算法是通过用已知的训练数据训练得到的,其中著名的算法有RankBoost[1],Ranking SVMs[2],RankNet[3],MFoM[4].
1 正则经验风险模型及RLR算法分析
1.1 正则经验风险模型
本文中的文件是指检索的基本单位.Q={q?1,q2,…,q??M?Q}是一系列查询的集合,q?t由具体应用背景而定,它可以是一组关键词,或详细的文本描述,也可以是图像、声音或视频信息.D={d?1,d2,…,d??M?D}是待查询文件的集合.记D+?q与D-?q分别表示对查询q相关和不相关的文件集合,D+?q=M+?D,D-?q=M-?D.对于查询q和文件d, 可定义相应的排序特征包记为f?i(d,q),i=1,2,…,N.其中N为查询q中关键查询元素的基数.许多排序算法来源于如下正则化经验风险模型
这里y?j是第j个训练文件d?j的二元分类标签, f(d?j,q?t)代表第j个
原创力文档


文档评论(0)