补充教材5 搜索引擎的“盲区”.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
补充教材 5: 搜索引擎的网络搜索 “盲区” 在互联网上可获得的但传统的搜索引擎由于技术限制不能搜寻到或者经过 慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息。中 文又有 “隐形网络”“隐蔽网络”、 “看不见的网络”、 “深网”、 “暗资源”等 说法。 理解其含义可从与之相对的概念 Visible Web (又称Surface Web)入手。 Visible Web 指用户通过一般搜索引擎可以检索到的网络资源,Invisible Web 即 指可通过万维网获得的文本网页、文件或其他高质量的权威性信息,但由于技术 限制,或是由于特定选择而不能或未被纳入通用搜索引擎的网页索引。换句话说, 就是说这些内容本身并非 “看不见”,但是,由于绝大多数网络用户使用信息检 索工具很难查到这些内容。因此,才说这些内容的确是“看不见”的,除非能知 道其确切位置,否则将很难找到它。所以可以简单地把“看不见”的网站理解成 通用搜索引擎及网站指南所无法涵盖的内容。从搜索引擎功能不断进化的角度来 看,网站看得见是绝对的,而“看不见”则是相对的。关键的问题并不在于分清 看得见和看不见的资源之间的界限,而是要在目前条件下,知道“看不见网络” 的存在,学会检索和利用“看不见的网络”。 (一)为何网络“看不见” 1.搜索引擎自身存在的技术障碍 (1)搜索引擎自动代理搜索软件的工作原理(通过点击网页上的超链接来提 取新的网址)导致它无法索引未与任何网页建立相关链接的网页。 搜索引擎通 过点击网页上的超链接获得新的网址,如果一些网页既未与任何其他网页建立相 关链接,也没有主动提交给搜索引擎的话,搜索引擎根本无法对其进行索引,这 些无法被索引的网页资源就成为网络的空白地带,也构成了 “看不见”的网络中 最基本的组成部分。 (2)搜索引擎索引没有文字线索的非文本类型的文件能力较弱。 搜索引擎 1 对许多类型的非文本文件的索引能力很弱,也会造成这类文件的 “隐蔽”,许多 极少或根本不带文本的图像、声频或视频文件根本无法被搜索引擎索引,即使这 些网页可能包含在某一搜索引擎的索引里,但它们只能对其内容提供很少的文本 线索,从而不太可能获得较高的相关评价。因此,可以说这些资源中的很大一部 分对检索者来说是“看不见”的。 (3)搜索引擎仍以静态网页为主要索引对象,无法实现对动态信息的检索。 搜索引擎对动态信息的检索能力较差。像如股票报价、气候信息、航班到达信息 等流动或实时数据,由于其变化过于频繁,且具有很强的时效性,所以没有必要 对其索引,另外,与实时信息保持同步需要耗费太多的资源,这对于自动代理软 件来说实际上是不可能的。 (4)搜索引擎不能完成输入动作,无法检索网络数据库。搜索引擎通过自动 代理软件工作,而这些软件无法进行 “type”(输入)动作,就无法完成登录、 输入检索词等动作,这给搜索引擎带来了最大的技术难题即无法检索存储在数据 库中的信息。因为网络数据库采用的是以数据库为后台、动态网页技术与数据库 技术相结合的资源组织方式。用户在网络数据库检索页面上输入检索词,获得的 页面是针对用户此次的检索词和其他一些检索限制而动态生成的网页,谓之动态 网页。但是,搜索引擎代理软件无法像人一样与数据库进行交互,完成诸如输入 密码、检索词进行登录检索这样的动作,因此往往无法发掘出隐藏在数据库界面 下的丰富资源。这些网络可检索的数据库构成了“看不见”的网络中的大部分内 容。 2.搜索引擎对自动代理软件的访问限制 (1)对搜索内容的格式进行限制导致不可见。搜索引擎一般只收录 HTML 网页 文件,而对于用户不经常检索的文件格式,比如 PDF 或附件(Google 除外)、 Flash、Shockwave、Executables (程序)、压缩文件(.zip,.rar)等选择不加 收录,这主要是基于商业因素的考虑所致。HTML 是互联网上最基本的通用语言, 搜索引擎的自动代理软件最擅长处理 HTML 语言写成的网页文件,处理其他类型 的文件在技术上没有很大的难题,但因为对这类文件的需求要比超文本文件的需 求少得多,这类格式需要更多的计算资源和运营成本,所以搜索引擎开发商一般 将之排除在外。不过近两年来已有一些搜索引擎正在努力扩展和完善其检索服务,

文档评论(0)

158****6415 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档