- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网搜索SearchingtheWebLinkbasedrankinginwebsearchengines
11. 互联网搜索Searching the WebLink-based ranking in web search engines 超文本推导主题检索 Hypertext Induced Topic Search (HITS) Pagerank 回顾 Pagerank 计算 在Web图上随机游走 Teleport 操作可避免死角 每个网页都有稳态到访率 把它称作 pagerank 评分 从特征向量计算得到,也可以迭代计算 Pagerank 回顾 Pagerank 使用 获取与文本查询相匹配的网页 返回给用户时以 pagerank 评分的顺序返回 此顺序与查询无关 能够与基于文本的评分联合 Pagerank 是一个全局属性 一个网页的 pagerank 评分决定于其他所有人 相比简单链接计算的机制更难于欺骗和破坏 本节内容 更为复杂的链接分析 使用链接+内容 超文本推导主题检索 Hypertext Induced Topic Search (HITS) - Klei98 对应于一个查询, 以往是找到满足查询的网页列表, 现在则需要找到两个互相关联的网页集合 Hub pages 目录型网页 e.g., “Bob’s list of cancer-related links.” Authority pages 权威型网页,同时在某个主题的多个好的目录型网页上出现 最适合主题式查询而不是网页查找查询 Hubs and Authorities 一个好的目录型网页hub会指向相关主题的很多权威型网页authority 一个好的权威型网页authority会被很多相关主题的目录型网页hub所指引 循环式的定义 – 可转化为迭代式计算 高层实现机制 从web抽取一个基本网页集合base set ,可能成为好的 hubs 或 authorities 再从这些里面找出一个小的集合包含top hub 和 authority pages 迭代算法. 基础集Base set 给定一个查询 (假定为browser), 使用一个文本索引获取所有包含browser的网页 称此为网页的根集合 root set 加入以下任何网页 指向根集合里的一个网页 被根集合里的一个网页所指向 形成基础集 base set 图形表示 找到基础集base set Root set 通常 200-1000 节点 Base set 可能会有 5000 节点 如何发现base set节点? 解析Root set页面中的出链接 从connectivity server获取入链接和出链接 计算hub和authority 每个网页计算两个值 a hub score h(x) :作为目录型网页的权重 an authority score a(x) :作为权威型网页的权重 Initialize: for all x, h(x)?1; a(x) ?1; 迭代更新所有 h(x), a(x) 迭代之后 输出网页中最高的 h() 作为最好的hubs 输出网页中最高的 a() 作为最好的authorities 迭代更新 对所有网页x进行以下更新 缩放 为了避免 h() 和 a() 值过大,可以在每轮迭代之后进行缩小 尺度因素并不会有太大影响 我们只关心评分的相对值 迭代次数 相关评分值会在几轮之后收敛 实际上,合适的放大缩小 h() and a() 的值会收敛到一个稳定的状态! 我们只需要h() 和 a() 的相对顺序而非绝对值 实际上,大约5次迭代就能够接近稳态 Japan Elementary Schools The American School in Japan The Link Page ‰a?è?s—§??“c???w?Z?z?[???y?[?W Kids Space ?à?é?s—§?à?é???”???w?Z ?{?é?3??‘??w??‘????w?Z KEIMEI GAKUEN Home Page ( Japanese ) Shiranuma Home Page fuzoku-es.fukui-u.ac.jp welcome to Miasa EJ school ?_“T?ì?§?E‰??l?s—§’??ì?????w?Z?ì?y http://www...p/~m_maru/index.html fukui haruyama-es HomePage Torisu primary school goo Yakumo Elementary,Hokkaido,Japan FUZOKU Home Page Kamishibun Elementary School... schools LINK 13 “ú–{?ì?w?Z ?a‰
原创力文档


文档评论(0)