基于时间技术搜索引擎排名算法.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于时间技术搜索引擎排名算法

基于时间技术搜索引擎排名算法   摘 要: 提出一种基于用户浏览网页时间的搜索引擎新排名算法time-Rank。该算法根据用户浏览时间的信息,更加准确地计算网页的排名得分,提高搜索引擎排名的准确性。算法基于浏览任意两个网页之间的时间差,对用户浏览网页时间进行计算,该算法能够更加准确地模拟用户浏览网页的时间长短。由于浏览时间不同,用户对网页的喜爱程度也就不同,直接体现该页面针对不同用户的重要程度。   关键词: time-Rank;PageRank;Hits;搜索引擎;排序   中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2012)1110013-02   0 引言   由于互联网的出现和迅速发展,搜索检索的环境发生了重大变化。而基于互联网的搜索引擎的排名算法,直接关系到用户获取相关信息的准确性。网页链接结构是搜索引擎排名算法的基础,其中有两种算法很流行:PageRank[4]算法和Hits[3]   算法,这两种算法国内外有许多学者和研究机构都进行了研究。但是,在传统的PageRank算法中,PageRank得分表示的是用户浏览某篇网页的概率。但此得分的计算过程有一个前提,那就是用户浏览网页的过程是绝对随机,并且是盲目的。于是,所有的出链都被赋予相同的权值,每篇被链到的页面都得到这个权值,完全没有考虑用户对两个网页的重视程度,这显然是不合理的。用户点击下一网页不是盲目的,用户是根据自己感兴趣的内容点击下以网页,PageRank和HITS算法都没有考虑这些,从而不能体现该网页对用户的重要程度,而timeRank 算法解决了这个问题。   1 PageRank算法   PageRank[4]算法是斯坦福大学的Larry Page和Sergey Brin在1996年提出的。   其基本概念是:每个网站都有外部链接和内部链接,其中数量和质量关系该网站的价值,如果网页v有其它网页进行链接,这样说明网页v对于其它网页比较重要,这相当每个页面对网页v进行了一次投票。链接越多,被其他网页的投票也就越多,每个网页都有重要性得分值,假设网页A它的重要性为:PageRank值PR(A)和A的出链(从A链出的链接)数C(A)的比值,具体公式为PR(A)/C(A)。   假设有T1…Tn个网页指向A,参数d为阻尼系数,是0到1之间的值,通常假设??0.85。C(A)是一个从网页A的链出的网页数。A的PageRank值由以下公式计算:   假设用户当前在浏览某一网页Ti,下一步它要么以概率   以概率1-d在Web中均匀地选择任一页面进行浏览。Web中存在的大量独立网页,用公式(1)计算的PageRank值为0.15,太高,于是Google又给出了公式:   2 time-Rank算法   2.1 算法   网页的重要性对于用户来说是不同的,即使它们的链接结构是一样的,因此怎样把网页内容和链接结构关系到一起?如果用户对网页感兴趣,那么用户浏览的时间比那些用户不感兴趣的网页浏览时间要长,这意味着网页的内容更可能是用户想搜索到的,如果我们把浏览时间加入到排序算法中,我们更能准确的计算网页排序的分数,因此,怎样估算浏览网页的时间是当前算法的关键。   为了估计出用户浏览网页的时间,我们做出一个合理的假设,假设用户点击的网页是来自搜索解析的网页集合中的网页,意思是说,用户在搜索引擎中输入关键字,得到相关的网页结合,假设用户每次只点击一个网页,一直到浏览完该网页才去点击另一网页,换句话说,每次用户点击不超过两个网页,直到浏览完一个网页再去浏览另一个,如果用户在这种方式下浏览网页,它存在一个浏览序列。   假设P为序列,向量P={p1,p2….,pn},n代表用户输入的关键字,所解析返回的网页数量,基于这个序列,我们能计算出浏览网页的时间TJ代表用户点击网页Pj的时间,Tj+1代表用户点击网页Pj+1的时间,因此用户浏览网页Pj的时间是Tj+1-Tj,用户浏览浏览网页的时间为:TM={t1,t2….,tn}。   我们添加时间因素进入算法,是因为如果用户感兴趣该网页,有可能是和用户搜索的主题相关,这样用户就会浏览更长的时间,否则用户很快就离开该网页,浏览很短的时间。因此计算过程如下:   基于超链接的排名,每个网页有n个时间分数,n代表主题的数量。首先,运用web图算法并计算每个离线下网页的等级,这个计算过程是基于[1]。   其次,计算关键字和超链接的相似度,用户提交关键字给搜索引擎后,搜索引擎必须确保关键字和超链接想匹配,根据贝叶斯理论[2],解析q和超链接j之间的关系有可能是:   H(j)代表j的每个页面的超链接,PR(H(j))代表在相关网页集中所占的比例,PR(q|H(j))代表在超链接j中包含q所占的比例,计算这个的目的是

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档