- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基本集合 (2) 指向根集节点的那些节点 根集 基本集合 (3) 基本集 根集 基本集 HITS:算法 给定: 页面集合 链接矩阵A, 期望迭代次数 初始化: 迭代:for c = 1…k for for 归一化 和 : HITS:收敛 更新: 在第一次迭代后: 在第二次迭代后: 收敛于ATA的主特征向量, 收敛于AAT的主特征向量 总结 链接结构包含了人类的潜在判断; HITS 和 PageRank 都是从 Web 的链接结构推导页面质量或“专业度”; 基于迭代算法; 实用中的考虑 * * * * * * * * * * * * * * * * * * 信息检索 第六讲 Web页面的评分机制 — PageRank与HITS 提纲 Web页面中的链接 PageRank HITS Web页面中的链接 科学中的论文引用 一篇论文被引用的次数越多,说明该论文水平越高 Backlink(反向链接) 定义:从其它页面指向当前页面的链接 反向链接数:指向当前页面的反向链接数越多,说明该页面越重要; 反向链接重要性:若指向当前页面的反向链接来自重要页面或网站,说明该页面越重要; 反向链接分配:指向当前页面的页面,其反向链接的分配情况。 PageRank L. Page et al. The PageRank Citation Ranking: Bringing order to the web. Tech Report, Stanford Univ., 1998 S. Brin, L. Page. The anatomy of a large-scale Hypertextual Web Search Engine. WWW7/Computer Networks 30(1-7):107-117, 1998 随机冲浪 前提假设:不返回已经浏览过的页面 模型:给定一个随机页面,按照页面提供的链接向前浏览的概率为 q,在浏览厌烦后随机跳到其它页面的概率为 1-q PageRank 值:浏览每个页面的概率分配 PageRank公式1 u 一个Web页面 Bu 指向u 的页面集合 Nv 指向u 的其中一个页面v所包含的指向外部的链接数 一个例子:PageRank的计算 Pagerank for the “mini-web” (q=.85) PageRank的矩阵求解1 将整个的链接结构表示成一个矩阵A,其中的一个元素Aij表示第j个页面指向第i个页面的平均概率 PageRank的矩阵求解2 假设 是矩阵 A 的特征向量 若按照链接浏览,则页面获得的对应的概率分配可通过下式迭代: PageRank的矩阵求解3 不按照链接浏览,即页面获得由其它页面随机跳过来的概率分配部分,可由下式迭代: PageRank的矩阵求解4 综合得到如下迭代公式: PageRank的矩阵算法 初始化 ,A 迭代: (1) (2)停止函数: (3)将产生一个特征向量 ,其代表的每个页面的平均PageRank值为1,即 求解过程1 求解过程2 迭代: * 锚文本 锚文本描述了文档 d2 的内容 这里的锚文本定义比较宽泛,包括链接周围的文本 例子: “You can find cheap cars ?a href =http://…?here ?/a ?. ” 锚文本: “You can find cheap here” * [d2中文本] vs. [d2中文本] + [锚文本 → d2] 后者往往效果好于前者 例子: 查询 IBM IBM 的版权页匹配上 很多作弊网页匹配上 IBM的wikipedia页面 可能与IBM 的主页并不匹配! … 也许 IBM 的主页上大部分都是图 而按照 [锚文本 → d2] 来搜索效果会比较好 这种表示下,出现IBM最多的是其主页 * 指向的很多锚文本中包含IBM * 对锚文本构建索引 因此,锚文本往往比网页本身更能揭示网页的内容 在计算过程中,锚文本应该被赋予比文档中文本更高的权重 * 课堂问题:PageRank背后的假设 假设1: Web上的链接是网页质量的标志—链出网页的作者认为链向的网页具有很高的质量 假设2: 锚文本能够描述链向网页的内容 通常情况下假设1是否成立? 通常情况下假设2是否成立? 假设1 故意制作大量的链接指向一个网址 链接重定向 使用程序机在web2.0等网站大量的群发指向您网站的链接 通过扫描网站漏洞在高质量站点中加入隐藏链接 不具推荐意义的交换链接等等 假设2 Google炸弹 指的是这样一种情况:
文档评论(0)