基于稀疏矩阵面向论文索引排名的启发式算法.pdfVIP

  • 8
  • 0
  • 约1.84万字
  • 约 5页
  • 2016-03-09 发布于天津
  • 举报

基于稀疏矩阵面向论文索引排名的启发式算法.pdf

基于稀疏矩阵面向论文索引排名的启发式算法.pdf

2734 计算机应用 第 35卷 究 等。本文所关注的排名算法均是假定以网页之间的链 [19]中详细叙述了它们的不同点。实际应用中,用户大多数 接关系为基础的,经典的算法有 PageRank算法 ]、HITS算 情况下是向前浏览网页,但是也会回退浏览网页。基于上述 法 以 及 SALSA (Stochastic Approach forLink—Structure 直觉知识,Lempel和Moran提出了SALSA算法 ,具体计算 Analysis)算法 等。这些算法都是基于网络链接的结构关 迭代细节在文献 [10,16]中有明确说明。 系,而与网页内的文本内容无关 71。 本文研究的问题是论文排名。由于论文间的引用关系与 1.1 基本 PageRank链接分析算法 网页问的链接关系相似,所以利用网页排名算法的技术手段 , PageRank算法用于衡量特定网页在搜索引擎中相对于 来解决所关注的问题。注意:由于论文发表存在先后关系,因 其他网页而言的重要程度 ’。算法中定义邻接矩阵为 Ⅳ, 此 ,论文引用关系形成的图是拓扑图,这点与网页链接关系图 其中 ,为节点 在一次更新中传递给节点 的网页排名份 不同,这就导致了排名值传递有极大的方向性。 额,如果 没有到 f的链接 ,则No~=0,Ni=l;否则 ,,为 2 基于稀疏矩阵与Hash索引技术的排名算法 出度数的倒数。以向量 r表示所有节点的网页排名值,基本 PageRank算法网页排名的更新规则表示为: 本章将利用 Hash索引技术减少稀疏矩阵对内存的消耗, 同时引入一种启发式的策略来定义图密集程度均衡值。 注意:反复运行更新规则后,可能排名泄露。在大范围的 2.1 链接关系的稀疏矩阵表示 网络中,选择一个缩放因子s,限定在0~1。因此 ,缩放网页排 计算机算法永远是在时间与空间中权衡与妥协。第 1章 名算法 (PageRankScale)的更新规则定义丙 =sN + (1一 介绍了邻按矩阵表示链接结构的方法。但在实际中,一篇论 S)/n。当反复执行网页排名更新规则 n次时, 文的引用论文数量是有限的,搜索得到的论文集所生成的邻 r‘ = ( )r (2) 接矩阵极大且稀疏。如果不利用 Hash索引技术,在2GB的 所有节点的网页排名值收敛于相应的极限值 ,与初始值无关 , 内存主机中,本文介绍的排名算法是处理不了表 1后 7行实 只与网络结构有关,即r =NTr“ ,其中r一 是 的 验数据的。本节介绍的Hash索引技术表示稀疏矩阵的方法, 特征向量 ,且对应的特征值是 1。用Perron定理 可证明,当 就是用来缓解内存空间有限性所带来的问题。 是正数矩阵时,反复运用更新规则后,,.“ 收敛,这个 向 本文实验所用到的表示论文之间引用关系的数据格式如 量就是要寻找的网页排名的收敛极限值。 图2所示。加载进HashMap的数据结构形式如图3所示 ,不 1.2 中枢一权威 (HITS)链接分析算法 记录论文之间没有引用的0项。在搜索 HashMap数据结构 HITS是由K|einberg在20世纪90年代末提出的基于链 的内容时,可以用迭代器来进行搜索。所以在每次更新某一 接分析的网页排名算法 。。该算法描述了两种类型的网页, 篇论文的排名值时,只需要计算引用(映射)到这篇论文的那 “权威型(Authority)网页”与 “中枢 目录型 (Hub)网页”。设有 些论文的HashMap结构的内容就可以了。 向图D = (V,E),V= ,:,…, }, ,为节点 邻接到 原论文 惑一 氟 引用论文 某论文 瓴 一 瓠 引用论文 节点 的边数 ¨,当M =l时代表有链接指向,M =0时代 菇蠢

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档