- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HITS算法概述
基于HITS算法的搜索引擎概述
摘要:本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。它专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。
关键词:搜索引擎;HITS算法 ;权威度;网页排名
引言:随着因特网的迅猛发展,搜索引擎的应用已经非常普及。然而,人们对搜索引擎的核心技术———算法设计知之并不多。了解搜索引擎的算法设计思想及原理,有助于提高我们的信息检索能力,评价搜索引擎。
更为重要的是,我国在信息技术领域内的发展情况与发达国家相比还有相当的差距,只有真正掌握了搜索引擎的核心技术,才可能开发出属于我们自己功能强大的搜索引擎,以使我们在当今的信息社会中立于不败之地。
国内目前对搜索引擎排序算法的介绍较少,从已有的文献来看,多集中于对更具影响力的PageRank 算法的介绍和分析研究,而对全球已有较大影响的HITS 算法和SALSA 算法介绍较少。
本文中所重点说明的HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出的,HITS 的英文全称为Hy pertext - Induced Topic Search。目前,它为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。
一、搜索引擎
搜索引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。 它借助于自动搜索网页的软件,在网络上通过各种链接获得大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。
1)搜索引擎的工作原理
搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。
搜索引擎原理-三段式工作流程
2)搜索引擎算法
获得网站网页资料,建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。Google、百度都是比较典型的搜索引擎系统。 为了更好的服务网络搜索,搜索引擎的分析整理规则既搜索引擎算法是变化的。
在各种搜索引擎上进行同样搜索时会产生不同的结果。究其原因,首先,检索依赖于网络蜘蛛能找到的信息。其次,并非搜索引擎都使用相同的排名算法。
排名算法趋势:
以Yahoo为代表的第一代文本搜索算法;雅虎的人工分类方式,网站目录搜索
第二代以PageRank和HITS为代表的基于链接分析的搜索算法;
第二代半基于网站的访问量。
第三代应该具有智能化、个性化和社区化等特征。
二、HITS算法
HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。描述两种类型的网页:“权威型(Authority)网页”:对于一个特定的检索,该网页提供最好的相关信息;“目录型(Hub)网页”:该网页提供很多指向其它高质量权威型网页的超链。由此,我们可以在每个网页上定义“目录型权值”和“权威型权值”两个参数。
1)Hits算法的基本思想
1.好的Hub型网页指向好的Authority网页
2.好的Authority网页是由好的Hub型网页所指向的网页。
2)Hits算法
HITS(Hyperlink - Induced Topic Search) 算法是利用HubPAuthority的搜索方法,具体算法如下:
将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:
1.S中的网页数量较少
2.S中的网页是与查询q相关的网页
3.S中的网页包含较多的权威(Authority)网页
通过向S 中加入
您可能关注的文档
最近下载
- 农行反洗钱与制裁合规知识竞赛考试题库大全-下(判断题).pdf VIP
- 甄嬛传英文剧本.docx
- 2022河南省家政服务业职业技能大赛母婴护理项目技术工作文件.pdf
- 2022八年级下学期信息技术期末考试(python).docx VIP
- Q∕CR 9210-2015铁路路基填筑工程连续压实控制技术规程 (2).pdf VIP
- Photoshop网店美工技巧-蒙版与通道的应用.pptx VIP
- 2023高中政治人教版新教材必修3 考前必背.pdf
- 奥迪C5使用说明书.pdf
- 2024北京门头沟初三二模物理试题及答案.pdf VIP
- Q∕CR 9212-2015 铁路桥梁钻孔桩施工技术规程.pdf VIP
文档评论(0)