页面搜索HITS算法讲解.ppt

下载文档 降价啦

16
0
约2.49千字
约 13页
2017-02-01 发布于湖北
举报
保障服务

页面搜索HITS算法讲解.ppt

页面搜索HITS算法讲解

Web页面搜索 HITS算法 HITS(Hyperlink-Induced Topic Search)算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的基于链接分析的网页排名算法。根集合：将查询q提交给基于关键字查询的检索系统，从返回结果页面的集合总取前n个网页（如n=200），作为根集合(root set)，记为root，则root满足： 1).root中的网页数量较少 2).root中的网页是与查询q相关的网页 3).root中的网页包含较多的权威(Authority)网页这个集合是个有向图结构：第二步扩展集合base：在根集root的基础上，HITS算法对网页集合进行扩充（如图）集合base，扩充原则是：凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base，无论是有链接指向根集内页面也好，或者是根集页面有链接指向的页面也好，都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。第三步计算扩展集base中所有页面的Hub值（枢纽度）和Authority值（权威度） 1、分别表示网页结点 i 的Authority值(权威度)和Hub值(中心度)。 2、对于“扩展集base”来说，我们并不知道哪些页面是好的“Hub”或者好的“Authority”页面，每个网页都有潜在的可能，所以对于每个页面都设立两个权值，分别来记载这个页面是好的Hub或者Authority页面的可能性。在初始情况下，在没有更多可利用信息前，每个页面的这两个权值都是相同的，可以都设置为1，即： 3、每次迭代计算Hub权值和Authority权值网页?a (i)在此轮迭代中的Authority权值即为所有指向网页?a (i)页面的Hub权值之和：? a (i) = Σ?h (i) ; 网页?a (i)的Hub分值即为所指向的页面的Authority权值之和： ?h (i) = Σ a (i) 。 4、对a (i)、h (i)进行规范化处理将所有网页的中心度都除以最高中心度以将其标准化： a (i) = a (i)/|a(i)| 将所有网页的权威度都除以最高权威度以将其标准化： h (i) = h (i)/?|h(i)|? 5、如此不断的重复第4）：上一轮迭代计算中的权值和本轮迭代之后权值的差异，如果发现总体来说权值没有明显变化，说明系统已进入稳定状态，则可以结束计算，即a ( u),h(v)收敛。 ? 算法描述：代码输出排序结果：将页面根据Authority权值得分由高到低排序，取权值最高的若干页面作为响应用户查询的搜索结果输出。 HITS算法存在的问题 HITS算法整体而言是个效果很好的算法，目前不仅应用在搜索引擎领域，而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用，并取得了很好的应用效果。尽管如此，最初版本的HITS算法仍然存在一些问题，而后续很多基于HITS算法的链接分析方法，也是立足于改进HITS算法存在的这些问题而提出的。主题漂移问题：如果在扩展网页集合里包含部分与查询主题无关的页面，而且这些页面之间有较多的相互链接指向，那么使用HITS算法很可能会给予这些无关网页很高的排名，导致搜索结果发生主题漂移，这种现象被称为“紧密链接社区现象”。易被作弊者操纵结果：HITS从机制上很容易被作弊者操纵，比如作弊者可以建立一个网页，页面内容增加很多指向高质量网页或者著名网站的网址，这就是一个很好的Hub页面，之后作弊者再将这个网页链接指向作弊网页，于是可以提升作弊网页的Authority得分。结构不稳定：所谓结构不稳定，就是说在原有的“扩充网页集合”内，如果添加删除个别网页或者改变少数链接关系，则HITS算法的排名结果就会有非常大的改变。 * Hub页面（枢纽页面）和Authority页面（权威页面）是HITS算法最基本的两个定义。 “Authority”页面，是指与某个领域或者某个话题相关的高质量网页，eg:搜索引擎领域，Google和百度首页即该领域的高质量网页，eg:视频领域，优酷和土豆首页即该领域的高质量网页。 “目录型（Hub）网页”：该网页提供很多指向其它高质量权威型网页的超链。eg:hao123首页可以认为是一个典型的高质量“Hub”网页。 HITS算法的基本思想 1.一个好的“Authority”页面会被很多好的“Hub”页面

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

页面搜索HITS算法讲解.ppt