搜索引擎相关度算法分析.docVIP

  • 15
  • 0
  • 约2.88千字
  • 约 6页
  • 2017-01-01 发布于未知
  • 举报
搜索引擎相关度算法分析搜索引擎相关度算法分析

搜索引擎相关度算法分析1。 网页的PageRank值决定了随机访问到这个页面的概率.用户点击页面内的链接概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)ΠC(Ti)的原因.因此,一个页面通过随机冲浪到达的概率就是链入它的页面上的链接被点击概率的和,且阻尼系数的减低了这个概率.阻尼系数的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面. 由此可见,PageRank并不是将整个网站排等级,而是以单个页面计算的.页面A的PageRank值取决于那些连接到A页面的PageRank的递归值.PR(Ti)值并不是均等影响页面PR(A)的.在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响.这就是说,T的出站链接越多,A受T的这个连接的影响就越少.PR(A)是所有PR(Ti)之和.所以,对于A来说,每多增加一个入站链接都会增加PR(A).所有PR(Ti)之和乘以一个阻尼系数的,它的值在0到1之间.因此,阻尼系数的使用,减少了其它页面对当前页面A的排序贡献.另外,PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性.斯坦福大学计算机科学系Arvin的Arasu等科学家经过试验表明,PageRank算法计算效率还可以得到很大的提高 2.2 HITS算法。 HITS(Hyperlink-In的uce的Topic

文档评论(0)

1亿VIP精品文档

相关文档