基于用户查询偏好搜索排序算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户查询偏好搜索排序算法

基于用户查询偏好搜索排序算法   摘要:21世纪科技迅速发展,特别是信息技术的飞速发展,计算机网络的普及以及产生越来越广泛的作用,信息大爆炸使得各种各样的信息充斥着人们的生活。在这些纷繁复杂的信息当中,如何判别哪一些是有用的哪一些是不需要的,如何从海量的信息当中获取最需要、最有价值的信息一直是互联网技术的研究重点。传统的搜索排序算法已经越来越表现出不足与缺陷,无法满足用户的需要。该文将基于用户的查询偏好来探讨搜索排序算法,从用户的角度出发,分析与传统的搜索排序算法有哪些优势,以便更好的满足用户的需求。   关键词:用户偏好;搜索;排序算法;PageRank算法   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)11-2605-02   时代发展,一个的趋势是Web信息量就会迅速的增大,信息的传递加快的同时信息的更新时间也变得更短,信息显现出一种爆炸式的增长。信息总体的无限的增加,几乎不受个人力量的控制,传统的信息查询方法本来就赶不上信息增加更新的速度,加上不同的人群有不同的需要,需求的多样化,使得用户在查询的时候出现的结果难以达到令人满意的程度。对同一个问题或者信息的查询因为各种各样的原因就会出现信息芜杂的结果,使得用户的查询效率的满意度都比较的偏低。   1 PageRank算法   PageRank算法自1998年提出以来,作为一种网络链接的新的算法,吸引了人们的目光,在得到一片赞许的同时也引起了网络链接分析的高潮。在这之前,互联网络的飞速发展,信息的海量集中,使得人们在面对这些信息的时候只有通过搜索引擎来获得自己想要的东西。过去,传统的搜索引擎在查询信息的时候一般是利用关键词来找到与用户需求相匹配的信息,但是结果往往都不是太理想。而PageRank算法改变了传统的搜索方式,通过分析网络的连接结构来达到获得网络当中与用户需求相匹配的网页,更加的具有权威性,效果也更好,经过Goole的实践取得了很大的成功。   1.1PageRank算法的原理   PageRank算法之所以能够得出比较令人满意的效果主要的是因为PageRank可以对网页的相关性以及重要性做出一个比较客观的评价,这一切来源于对若干个变量和词汇组成的方程进行的计算。和其他的搜索排序算法不同,虽然链接很重要,但是PageRank算法并不对相关的链接进行直接的数量上的计算。取而代之的是,PageRank算法把这种不同网页之间的指向关系解读成为一种投票的关系。所得票数的多少直接关系着链接内容会不会出现,因此,PageRank算法最后得出的搜索结果以及相关的排序都是基于比较准确的网页指向票数而得出的。PageRank算法根据网页在指向关系当中所得票数的多少来平算网页的重要性,从这一点上来说,是比较科学可信的。   另外,PageRank不仅根据网页所得票数来评价网页的重要性,还对每一个具有指向关系当中的网页,通俗一点来说就是前者的投票网页来进行一个重要性的评估。和现实社会中的人际关系一样,有的权威者的投票一般来说是会被认为具有比较较高的价值的,网页投票当中也是这样的,某些网页就会被认为有这样的作用,它们的投票会被认为具有相对高的价值,所以投票得出的网页、链接相应的也应该要具有较高的价值。在PageRank十分当中,网页投票的票数越多,意味着在PageRank十分当中得到的地位就越高,体现在现实网页当中的结果就是显示在最显眼的位置,也就是搜索结果排名的第一位。   其实PageRank十分的核心在于它认同一种原则,即当一个网页被许多网页链接,那它的排名自然就高。PageRank算法使它得出的搜索结果没有人为的因素来干预影响,所以得到用户的信赖。   1.2 PageRank算法的缺陷   在用户进行相关信息的查询之前,其实相关的PageRank算法已经完成了。PageRank算法采用的是一种事前计算的方法,也就是说PageRank算法的相关内容不是与信息搜索同时发生的,而是采用的离线计算,来得到网页的PageRank值。用户在查询的时候还是运用关键词的查询来得到若干的相关网页,而这些相关的网页经过PageRank算法的排序之后的一显现在用户的眼前。PageRank算法最引人注目的地方是十分的关注网页的链接,也正是这样,所以这种搜索排序算法还存在许多的不足与缺陷。   PageRank算法看重的一点是如果一个网页被链接的次数多、频率大,那么这个网页的排名自然就高。在网络这个信息库当中,毫无疑问,已有的、旧的网页在PageRank算法这一原则之下具有更大的优势。在过去的时间当中,就网页被链接的次数可能会比新网页被链接的次数多,但不见得就网页的信息价值就一定会比新链接具有的价值要大。另外,由这种偏重链接导致的结果还

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档