- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于相关度和流行度的改进HITS算法.pdf
基于相关度和流行度的改进 HITS 算法1
张聪
大连理工大学软件学院,辽宁大连 (116023)
E-mail:zhangcong821026@
摘 要:HITS 算法是基于查询主题的重要的链接分析方法之一,但它对链接不加区分,容
易产生主题漂移现象。本文在分析HITS 算法的基础上,提出了基于主题相关度和网页流行
度的改进HITS 算法,利用相关度和流行度来区分链接的重要性。通过与HITS 算法的对比
实验,结果表明:改进的HITS 算法(I-HITS)比原始的HITS 算法、ARC 算法、SALSA 算法
能找到更多的相关网页,相关度比例提高 30%-50%,从而极大地减少了主题漂移现象,提
高了查询效率和质量。
关键词:HITS 算法,链接分析,相关度,流行度
中图分类号:TP301.6
1. 引言
随着计算机技术和互联网技术的飞速发展,全世界每年产生 1 到 2EB
(1EB≈1024*1024*1024GB)的信息,信息的增长速度已经超出了一般人的想象,如何快速
地在互联网的海量信息中检索出有效的信息是现代搜索引擎的主要目标。自从以斯坦福大学
Sergey Brin 和 Lawrence Page 提出的 PageRank 算法[1]取得了极大成功之后,越来越多的学者
开始致力于网络链接结构方面的研究工作。
目前对网络链接结构进行分析的算法主要有两类:PageRank 算法和 HITS 算法[2] 。由于
HITS 算法的定义使得中心性网页的质量由它指向的权威性网页的数目决定,没有区分对待
链接,因此 Allan Borodin 等人提出了 Hub-Averaging(HUBAVG)算法,定义中心性网页值等于
它所指向的权威性网页值的平均值。不久,Allan Borodin 等人又提出了 Authority-Threshold
算法[5],认为中心性网页值应该由最好的k 个权威性网页值的和决定,忽略了一些不好的权
威性网页。Lempel 和 Moran 提出了一种基于 Markov 链的 SALSA 算法[6],考虑了用户回退
浏览网页的情况,保留了 PageRank 的随机漫游和HITS 中把网页分为Authority 和 Hub 的思
想,取消了 Authority 和 Hub 之间的相互加强关系。这些算法都是纯粹地基于链接分析来发
现权威性网页,没有考虑网页的具体内容,存在主题漂移(topic drift )的问题,算法的结果
中往往包含一些链接密度较高但在内容上又与查询主题无关的网页。为了有效地抑制主题漂
移现象,出现了基于超链接和内容的网页排序算法,在链接分析的基础上引入了网页内容信
息的影响因素,如 ARC 算法[3] [4]
、Average 算法和 Sim 算法 。还有Cohn 和 Chang 提出了一
种基于概率模型的 PHITS 算法[7]等。
在分析 HITS 算法的基础上,本文发现 HITS 算法等同地对待链接以及没有利用文档的
内容信息来计算网页的权威性,所以本文定义了网页相关度和网页流行度的概念来影响网页
的排序结果:利用网页与查询主题的相关度和网页的流行度来区分链接的重要性,并据此构
建了一个新的邻接矩阵 W ,提出了一种基于相关度和流行度的改进HITS 算法。理论分析和
实验表明,该算法在查准率上有明显的提高,有效的减少了主题漂移现象。
本文的其余部分组织如下:第二部分介绍了 HITS 算法以及它存在的问题,简要介绍
ARC 算法和 SALSA 算法。第三部分是本文的主要工作所在,给出了网页相关度和网页流行
度的定义,在此基础上提出了改进 HITS 算法。第四部分是相关实验说明。第五部分对本文
1 本课题得到国家自然科学基金项目资助)。
- 1 -
文档评论(0)