lecture07-webir概述.pptVIP

  1. 1、本文档共96页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
参考文献 李晓明,闫宏飞,王继民 . 搜索引擎— 原理、技术与系统. 科学出版社,2004 骆卫华. 基于开源工具搭建小型搜索引擎. 中科院“现代信息检索”讲义 thanks Kleinberg认为: 互联网上一个广义的主题包含有大量显著的权威性网页,它们被大量的超链接所指向的 同一主题下的权威网页之间并不存在相互的链接(相互间并不“认可”).例如,“Microsoft”和“Netscape”虽然都是浏览器主题中的权威站点,但它们却并不存在相互的链接. 权威网页通常同时被一些不知名的网页所共同指向.Kleinberg称这种网页为中心性网页(hub),它们指向多个主题相关的权威网页. 通过这两种不同类型的网页(权威网页和中心网页),链接结构可以描述为它们之间的一种依赖关系:一个好的中心性网页应该指向很多好的权威性网页,而一个好的权威性网页则应该被很多好的中心性网页所指向. IBM的HITS算法 Hyperlink-Induced Topic Search 每个网页计算两个值 Hub:作为目录型网页的权重 Authority:作为权威型网页的权重 Hub Authority 计算方法 A(p)=ΣH(qi)其中qi是所有链接到p的页面 H(p)=ΣA(ri) 其中ri是所有p页面链接到的页面 HITS算法也是收敛的,也可以通过迭代的方式计算。(但该算法不能保证收敛到唯一值,即,基于不同的初始估计,可能收敛到不同的结果) 计算方法 I 操作 O操作 Normalize操作 Jon M. Kleinberg,Authoritative Sources in a Hyperlinked Environment *HITS的过程:利用一个传统的文本搜索引擎(例如AltaVista)获取一个与主题相关的网页根集合(root set).然后向根集合中扩充那些指向根集合中网页的网页和根集合中网页所指向的网页,这样就获得了一个更大的基础集合(base set).HITS的计算过程是在base set构成的网络上进行的。 PageRank vs. HITS PageRank 网页的PageRank与查询主题无关,可以事先算好,因此适合于大型搜索引擎的应用。 对于某个特定主题的查询,在返回结果中一些与主题无关的“强壮”网页将会排在较前的位置. PageRank vs. HITS HITS 针对的不是整个互联网结构图,而是特定查询主题的互联网子图.规模上的极大减小可以使HITS算法的迭代收敛速度比PageRank要快得多. 计算与查询主题相关,检索之后再进行计算(在线的),因此,不适合于大型搜索引擎。 在对很多广义主题进行查询时,HITS算法会错误地将许多与主题无关的网页赋予很高的价值度.例如,当查询“电影奖”时,得到的结果却是许多电影公司的主页.这是因为和“电影奖”有关的网页通常会链接向电影公司的主页 除非为HITS算法中所考虑的链接赋予适当的权值,否则,相邻矩阵的主特征向量并不能反映最合理的网页价值度排列 链接分析的研究趋势 链接分析方法的改进 快速计算方法 抗Spam的计算方法 链接分析现已应用于自然语言处理的多个领域,并根据实际情况进行改造。 *王晓宇, 周傲英.万维网的链接结构分析及其应用综述.软件学报,2003 查询扩展 对用户的查询进行扩充:比如用户输入计算机,我们扩充一个词电脑 同义词扩展: 同义词词典 通过统计构造的同义词词典 相关词扩展: 相关词:“2006世界杯”与“德国” 基于全局分析的查询扩展:对文档集合进行分析得到某种相关词典 查询重构:对用户的初始查询进行修改(可以是加词、减词,或者对于向量模型表示的初始查询进行权重的修改等等),是比查询扩展更泛的一个概念 动态排名 查询阶段对网页排名。 两个值得关注的因素 锚文本 对指向的网页提供标记或描述 通常是页面的精确描述 某网页的锚文本可看作是该网页内容的一部分 静态排名靠前的网页中出现的锚文本权重应该更大 新颖性 如果几个结果有完全相同的标题或内容片段,则只保留其中之一 只为一个Web网站保留两个最好的的检索结果 相关反馈 指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等 伪相关反馈:系统假定一些相关的结果,并根据这些结果来进行返回 相关反馈是一种手段,目的可以是查询扩展或者重构,也可以是模型的调整 基于伪相关反馈和局部分析进行查询重构:根据某些文档中的信息来对查询进行重构 摘要生成 静态摘要:一个网页事先生成其摘要 动态摘要:基于Query的摘要,不同的Query会生成不同的摘要。 静态摘要比较简单,但是由于多Topic问题的存在,效果往往不好。现代搜索引擎往往采用动态摘要,用户也认可这种方式。 文档理解会议,Document Un

文档评论(0)

w5544434 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档