页面搜索HITS算法讲解.ppt

页面搜索HITS算法讲解

Web页面搜索 HITS算法 HITS(Hyperlink-Induced Topic Search)算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的基于链接分析的网页排名算法。 根集合: 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足: 1).root中的网页数量较少 2).root中的网页是与查询q相关的网页 3).root中的网页包含较多的权威(Authority)网页 这个集合是个有向图结构: 第二步 扩展集合base: 在根集root的基础上,HITS算法对网页集合进行扩充(如图)集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。 第三步 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度) 1、 分别表示网页结点 i 的Authority值(权威度)和Hub值(中心度)。 2、对于“扩展集base”来说,我们并不知道哪些页面是好的“Hub”或者好的“Authority”页面,每个网页都有潜在的可能,所以对于每个页面都设立两个权值,分别来记载这个页面是好的Hub或者Authority页面的可能性。在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同的,可以都设置为1,即: 3、每次迭代计算Hub权值和Authority权值 网页?a (i)在此轮迭代中的Authority权值即为所有指向网页?a (i)页面的Hub权值之和:? a (i) = Σ?h (i) ; 网页?a (i)的Hub分值即为所指向的页面的Authority权值之和: ?h (i) = Σ a (i) 。 4、对a (i)、h (i)进行规范化处理 将所有网页的中心度都除以最高中心度以将其标准化: a (i) = a (i)/|a(i)| 将所有网页的权威度都除以最高权威度以将其标准化: h (i) = h (i)/?|h(i)|? 5、如此不断的重复第4):上一轮迭代计算中的权值和本轮迭代之后权值的差异,如果发现总体来说权值没有明显变化,说明系统已进入稳定状态,则可以结束计算,即a ( u),h(v)收敛 。 ? 算法描述:代码 输出排序结果: 将页面根据Authority权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。 HITS算法存在的问题 HITS算法整体而言是个效果很好的算法,目前不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果。尽管如此,最初版本的HITS算法仍然存在一些问题,而后续很多基于HITS算法的链接分析方法,也是立足于改进HITS算法存在的这些问题而提出的。 主题漂移问题:如果在扩展网页集合里包含部分与查询主题无关的页面,而且这些页面之间有较多的相互链接指向,那么使用HITS算法很可能会给予这些无关网页很高的排名,导致搜索结果发生主题漂移,这种现象被称为“紧密链接社区现象”。 易被作弊者操纵结果:HITS从机制上很容易被作弊者操纵,比如作弊者可以建立一个网页,页面内容增加很多指向高质量网页或者著名网站的网址,这就是一个很好的Hub页面,之后作弊者再将这个网页链接指向作弊网页,于是可以提升作弊网页的Authority得分。 结构不稳定:所谓结构不稳定,就是说在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。 * Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算法最基本的两个定义。 “Authority”页面,是指与某个领域或者某个话题相关的高质量网页,eg:搜索引擎领域,Google和百度首页即该领域的高质量网页,eg:视频领域,优酷和土豆首页即该领域的高质量网页。 “目录型(Hub)网页”:该网页提供很多指向其它高质量权威型网页的超链。eg:hao123首页可以认为是一个典型的高质量“Hub”网页。 HITS算法的基本思想 1.一个好的“Authority”页面会被很多好的“Hub”页面

文档评论(0)

1亿VIP精品文档

相关文档