网页分块技术在链接分析中的作用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要 随着互联网的飞速发展,万维网已经深入到生活的各个方面,如何从海量 数据中得到自己想要的信息成为了目前 Web 研究的重点内容,Web 链接分析技 术是其中一个代表性的研究方向。Web 中的超链接在很大程度上反映了Web 用 户的价值取向以及兴趣爱好,可以看作是对复杂互联网社会的注释,为我们对 Web 结构的研究提供了一个很好的起点。目前 Web 链接技术主要用来进行潜在 社区挖掘以及网页排名。 互联网上的一些页面在讲述相同的主题时,会通过链接关系彼此紧密地联 系在一起,或者被一些公开的 Web 页面所共同引用。这些页面集合被称为 Web 社区。发现 Web 社区可以帮助我们对 Web 的知识性和社会性作评估,社区的组 织形式也为信息检索提供了一种全新的有效的展现形式,用户通过 Web 社区的 展现形式,可以从一个主题很快地迁移到他感兴趣的其他相关主题。现有的一 些社区通常通过人工的方法去维护,但很多有意义的潜在的社区很难完全通过 人工识别出来,因此相应地出现了基于 Web 链接结构的自动化及半自动化的潜 在社区挖掘技术。 HITS 算法是由 Kleinberg 提出的基于 Web 链接结构的网页排名算法。在 HITS 算法中,Kleinberg 根据 Web 结构将网页分为两种:hub 网页和 authority 网页,并指出两者之前存在着相互增强的关系。通过基于邻接矩阵的迭代运算, 可以得到 Web 中高质量的authority 网页。 目前现有的链接分析技术都是以网页为单位进行运算的,在运算过程中,由于 作为 fan 或 hub 的网页自身存在主题多样性,使得所得到的反馈结果可能包含 大量无用信息,或出现主题漂移的现象,在一定程度上影响了反馈结果的质量。 我们对 Web 链接分析技术展开研究,分析了已有的网页级别的链接分析技术的 缺点,进而提出了网页块级别的链接分析技术,将微软提出的 VIPS 网页分块技 术和已有的基于有向二分图的社区挖掘技术以及 HITS 算法相结合,将网页分块 处理之后进行运算,使得反馈结果的主题更加明确。本文的实验数据集合采用 1 了基于HITS 的收集方法进行收集,选择多个常见的主题,并综合了4 个搜索引 擎的结果。本文对反馈结果结合网页 url 以及网页内容进行人工评价,为结果设 定等级,并比较了网页级别和块级别下链接分析技术的反馈结果。实验结果的 分析表明,算法是可行的并且有效的。 关键词: Web 社区;社区;VIPS 算法;HITS 算法 2 Abstract Along with the fast improving of the internet, web is becoming the huge resource of people, how to fastly and exactly get the useful information from the mass data becomes the key point of the web research. The link structure of the web reflects users’ interest and value orientation, also represents a considerable amount of latent human annotation, and offers a promising starting point for structural studies of the Web. Now the link analysis is mainly used to detect the latent web communities and rank th

文档评论(0)

文献大师 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档