- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
图 * 一个小型 Web 图的例子。该例子中共有 6 个网页(分别以 A 到 F 标识),网页 B 的入度为 3、出度为 1。该图不是强连通图,因为 B 不可能到 A。 * * 一些研究表明,整个Web有向图结构是个蝴蝶结(bowtie)形,其中主要包含三大类网页,分别是IN、OUT和SCC。Web冲浪者能够从IN中的任一网页出发通过超链接到达SCC的任一网页。同样,冲浪者可以从SCC中的网页达到OUT中的任一网页。最后,从SCC中的任一网页可以到达SCC中的其他网页。然而,不可能从SCC中的网页到达IN的任一网页,也不能从OUT中的网页到达SCC中的任一网页(当然此时也不能到达IN中的任一网页)。 * 值得注意的是,在一些研究中,IN 和 OUT 的规模大致相当,而 SCC 的规模则稍大,大部分网页都落入到这三大类中。剩余的网页构成了所谓管道(tube),它由少部分 SCC 之外的网页组成,可以直接将 IN 和 OUT 中的网页相连。另外,还有一些不能从 IN 到达或者只能到达 OUT的网页构成的所谓卷须(tendril)。图 19-4 给出了 Web 图的这种结构。 * 在早期的 Web 搜索历史上, Web 搜索引擎显然是连接广告商和顾客的一种重要途径。 用户在搜索“Chicago golf real estate” 时,他想做的不仅仅是搜索有关 Maui 岛上高尔夫球场地产的新闻或者娱乐信息,而且很可能要寻找并购买这样的地产。因此,地产销售商及其代理机构就有强烈的动机来建立针对该查询的高排名网页。在一个基于词项频率排名的搜索引擎中,一个反复出现“Chicago golf real estate” 的网页排名将会很高。 这导致了第一代作弊网页(spam)的产生,即通过操作网页内容来达到在某些关键词的搜索结果中排名较高的目的(这里指的是在 Web 搜索的场景下)。 为了避免用户对这些冗余和重复信息的极度反感,一些老练的作弊者还会采用一些手段和技巧,比如将这些重复的词设置成和背景一样的颜色。尽管这些词对用户不可见,但是搜索引擎却会从网页的 HTML 表示中分析出这些词并会对它们建立索引。 * 针对上述作弊技术,搜索引擎也很快变得更加成熟,已经可以筛选出通过大量复制某些特定关键词的作弊网页。 为此,作弊者也发展出了更多的作弊技术,下面将介绍它们当中比较著名的几种。第一种技术被称为伪装(cloaking)。 这里,根据 http 请求是来自搜索引擎的采集器还是用户所使用的浏览器,作弊 Web 服务器会返回不同的网页结果。如果是前者,那么会返回一个包含欺骗性关键词的作弊网页供搜索引擎索引。这样,当用户输入这些关键词并选择该网页进行浏览时,他看到的却是与搜索引擎索引的内容不同的另一个网页。这种对搜索引擎索引器的欺骗在传统的 IR 当中是没有的,它主要是由于网页发布者和搜索引擎之间的不完全协作而造成的。 * 由于作弊的根源来自经济利益的驱动,因此涌现了一个被称为 SEO(Search Engine Optimizers,搜索引擎优化)的产业,SEO 为那些希望在搜索结果中提高关键词排名的客户提供顾问服务。搜索引擎对这些试图破解和适应其排名技术的做法十分头疼,并颁布了一系列政策来规定一些不能容忍的 SEO行为。并且,据我们所知,一旦某些 SEO 违反了上述政策,搜索引擎可能会切断他们的搜索请求。这些 SEO 能逐渐推断出每个 Web 搜索引擎排名算法的特性,而搜索引擎公司则会不断做出应对,他们之间的斗争将永不停止。实际上,这场斗争的一个结果是,研究领域里也出现了一个被称为对抗式信息检索(adversarial information retrieval)的子领域。为了对抗作弊者通过操作网页内容进行作弊的做法,人们开发出了一种利用 Web 中链接结构的被称为链接分析(link analysis)的方法。尽管几乎所有的现代搜索引擎都使用了链接分析技术(随之而来的是,现在作弊者下了很大力气在开发利用链接分析进行作弊的所谓链接作弊(link spam)技术),但目前所知的最早大规模使用链接分析方法(细节参见第 21 章)的搜索引擎仍然是Google。 * 信息检索研究包括文本和语言的数学模型的建立、带有测试集合与用户的大规模环境的建立,以及大量学术论文的写作。由于这些原因,此类研究比较适合专业学者或研究实验室中的人们来做。 那么谁来做搜索引擎呢?在很大程度上,还是同一种人,只不过应该更强调实践能力。计算机产业已经开始使用“搜索工程师”(search engineer) 一词来指称这种类型的人。 搜索工程师主要是受过计算机科学训练的人,多数有计算机系统或数据库的背景。 * 搜索工程师的角色是什么? 当然,那些在设计和实
您可能关注的文档
- 汇报总结 新活泼黄红幻灯片.pptx
- 软件工程概论生存期和开发模型.pptx
- 高中数学必修4公开课课件3.1.2 两角和与差的正弦 余弦 正切公式二.ppt
- 中国医考网5月15日执业医师考试备考指导公开课 运动系统2 主讲人武士科.ppt
- 椭圆的定义与标准方程 课件.ppt
- 芳香疗法概论教学课件.ppt
- 草根创业心得体会课件.ppt
- 十五讲提升我国本土流通企业竞争力的思路.ppt
- 第一讲 绪论 基本概念.ppt
- 博物馆藏品库房管理.pptx
- 工会代表大会运行规则及十大制度解读.docx
- 法院合同法案例分析与学习笔记.docx
- 医疗急救口头医嘱管理流程制度.docx
- 幼儿园科学实验教学设计案例.docx
- 2025秋九年级英语全册Unit2Ithinkthatmooncakesaredelicious课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit5WhataretheshirtsmadeofSectionA合作探究二课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit2Ithinkthatmooncakesaredelicious课时4SectionB1a_1d习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit1Howcanwebecomegoodlearners课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit5Whataretheshirtsmadeof课时4SectionB1a_1e课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit3Couldyoupleasetellmewheretherestroomsare课时3SectionAGrammarFocus_4c课件新版人教新目标版.pptx
原创力文档


文档评论(0)