《信息检索之HITS算法.docVIP

下载本文档

8
0
约 8页
2017-01-14 发布于北京
举报
版权申诉

《信息检索之HITS算法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《信息检索之HITS算法

一、实验目的理解搜索引擎的链接结构子系统的基本功能；了解万维网链接的结构图及特性；理解HITS算法的基本思想和原理。二、实验原理及基本技术路线图（方框原理图）万维网的链接结构通常使用有向图的方式来描述，在万维网链接结构图中，网页是图的节点；而超链接则是链接节点的有向边（从源网页指向目的网页）。每一条从源网页指向目的网页的超链接，既称为源网页的“出链接”，又称为目的网页的“入链接”。用图表示万维网链接结构，如下图：关于万维网结构图的规模很难给出一个准确的统计结果，这是因为：图中的节点存在形式纷繁复杂，即使不考虑网页的可访问性问题（部分网页会对用户访问加以限制，如采取登录策略等），只考虑能够被自由访问的网页，这些网页中既有以传统形式存在的静态页面，又有随用户查询要求在服务器端实时生成的动态页面，甚至还有用AJAX技术生成的URL相同但页面内容千差万别的页面。而超链接的界定在当前的网络环境下也存在诸多困难。2008年7月，谷歌在其官方博客上声称其索引量达到1万亿网页，这一估计一定程序上反映了图的节点集合规模。链接结构信息是网络信息环境与传统信息媒介的最大区别之一。对于搜索引擎而言，与用户查询需求乃至页面内容均相对独立的超链接结构是用以评价万维网数据质量的重要依据。在2001年SIGIR会议上，Craswell等人对链接结构分析算法的应用方式进行了分析，提出万维网超链接应具有的两个特性：如果存在超链接L从页面Psource指向页面Pdestiny，则Psource与Pdestiny满足：特性1：（内容推荐特性）页面Psource的作者推荐页面Pdestiny的内容，且利用L的链接文本内容对Pdestiny进行描述。特性2：（主题相关特性）被超链接连接的两个页面Psource与P destiny的页面内容涉及类似的主题。然而这两个特性对于万维网数据爆炸性增长的背景下被认为过于理想主义。万维网节点之间的超链接关系远比特性1和特性2描述的情况要复杂的多。但是，一方面，经过改进的链接分析算法还是可以为页面质量评估提供参考；另一方面，在经过数据清理之后的近似理想的网络环境中，它们还是可以发挥其挑选高质量网页的作用，因此链接分析算法仍旧是当前研究的热点之一。 HITS算法是由Jon Kleinberg在20世纪90年代提出的一种链接分析算法。HITS算法是Hyperlink-Induced Topic Search（基于超链接推演的主题搜索算法）的简称，它的核心思想是对网页如下两个方面的权威程度进行评价。首先，内容权威度（Authority Value），即网页本身内容的受欢迎程序；其次，链接权威度（Hub Value），即网页链接到其他受欢迎资源的程度。 HITS算法的实施包括两个阶段，对用户输入的查询主题而言，首先是通过文本搜索过程获取与此查询主题内容相关的网页集合，并适当扩充该网页集合，以包括尽可能多的结果候选网页，同时使用结果集合网页间的链接结构关系更加完整；随后则是通过一个“迭代—收敛”的过程计算网页集合中每个页面对应的链接权威度和内容权威度数值。算法最后输出的是分别按照链接权威度与内容权威度排序的结果列表，用户可以根据需求不同，选择其中的结果页面进行浏览。三、所用仪器、材料（设备名称、型号、规格等）硬件：PC机一台操作系统：Windows 7 编程语言：Java IDE：eclipse 3.5.2 四、实验方法、步骤实现HITS算法的主要功能模块，并可对测试数据计算所需要内容权威度和链接权威度的值。要求能够输出每次迭代过程的详细信息。五、实验过程原始记录(数据、图表、计算等) 本次实验中没有实现HITS算法中要求的Web图的扩展功能，而是将图的结点和边的信息存储在文件中，由程序读入并计算各自内容权威度和链接权威度，并能够指定最大迭代次数和输出迭代过程的详细信息。 Web图的构造过程的主要代码： /** * Web图类的构造方法 * 参数文件中每一行存储一条边的信息, 格式如下: url1 - url2 * 该方法将扫描文件中的每一行,将所有的边及结点信息读入并构造整个图 * 注: 程序设计思想参考/ * * @param file 存储了图中边及结点信息的文件 * @throws IOException */ public WebGraph(File file) throws IOException { this(); // 初始化相关变量 BufferedReader reader = new BufferedReader(new FileReader(file)); String line; int urlIndex = 0;