web超链分析算法综述.docxVIP

下载本文档

2
0
约1.67万字
约 10页
2019-09-14 发布于广东
举报
版权申诉

web超链分析算法综述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

WEB超链分析算法研究朱炜干-超李俊潘金贵 (南京大学计算机软件新技术国家重点实验室南京210093) (南京大学多媒体技术研究所南京210093) Research on Algorithms Analyzing Hyperlinks： A Survey ZHU Wei WANG Chao LI Jun Pan Jin-Gui (State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093) (Multimedia Technology Institute of Nanjing University, Nanjing 210093) Abstract: The World Wide Web serves as a huge, widely distributed, global information service center, and expanding in a rapid speed. It is import to find the information the user need precisely and rapidly. In recent years, researchers discovery that rich and import information is contained among hyperlinks, and develop a lot of algorithm using hyperlink to improve the quantity and relevance of the results which search engine returned? This paper presents a review and a comparison of such algorithms existing now. Problems of these algorithms and directions to further research will be discussed? Keyword: PagcRank, Authority, Hub, HITS, SALSA, Anchor 引言万维网WWW (WorldWideWeb)是一个巨大的，分布全球的信息服务屮心，正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档I⑷，每天增加约1百力?的文档⑹，不到9个月的时间文档总数就会翻一番网。WEB上的文档和传统的文档比较，冇很多新的特点，它们是分布的，异构的，无结构或者半结构的，这就对传统信息检索技术提出了新的挑战。传统的WEB搜索引擎大多数是基于关键字匹配的，返回的结果是包含查询项的文档，也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率來提高占身在搜索引擎屮的更要性，破坏搜索引擎结果的客观性和准确性。另外,有些重耍的网贝并不包含查询项。搜索引擎的分类冃录也不可能把所有的分类考虑全面, 并且目录大多靠人工维护，主观性强，费用高，更新速度慢⑵。最近几年，许多研究者发现，WWW上超链结构是个非常丰富利重要的资源，如果能够充分利用的话，可以极人的提高检索结果的质量。基于这种超链分析的思想，Sergey Brin 和Lawrence Page在1998年提出了 PageRank算法⑴，同年J. Klcinbcrg提出了 HITS算法⑸, 其它一些学者也相继提出了另外的链接分析算法，如SALSA, PHITS, Bayesian等算法。这些算法有的已经在实际的系统中实现和使用，并且収得了良好的效果。文章的第2部分按照时间顺序详细剖析了各种链接分析算法，对不同的算法进行了比较。第3部分对这些算法做了评价和总结，指岀了存在的问题和改进方向。 WEB超链分析算法 1 Google 和 PageRank 算法搜索引擎Google最初是斯坦福人学的IW?丄?研究牛Sergey Brin和Lawrence Page实现的一个原型系统⑵，现在已经发展成为WWW±最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎，它与传统的搜索引擎最人的不同处在于对网页进行了基于权威值的排序处理，使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的 PageRank值，从而决定网页在结果集中的出现位置，PageRank值越高的网师在结果中出现的位迸越前。 1? IPageRank 算法 PageRank算法基于下面2个前提：前捉1：一个网页被多次引用，则它可能是很重要的；一个网