《信息存储与检索》第十一章看不见的网站.ppt

下载文档 降价啦

4
0
约2.63千字
约 32页
2019-04-19 发布于浙江
举报
版权申诉
保障服务

《信息存储与检索》第十一章看不见的网站.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二节看不见网站中的精华网站书目和图书馆目录参考资源社会科学科学政府信息和数据法律和犯罪资源新闻和时事美国和世界历史公共档案实时信息人物资料健康和医学信息交通运输娱乐第十一章看不见的网站在学习了传统的封闭型的信息检索系统以及通用搜索引擎和网站目录之后，了解网上丰富的搜索引擎涉及不到的资源。第一节看不见的网站概述定义搜索引擎看不见网站的原因四种看不见的网站没有任何一个搜索引擎能知道网站的每一个网页。由于搜索引擎在网络信息资源采集方法、索引技术和处理能力等方面的原因，致使越来越多的信息不能被有效地索引而被隐藏起来，从而形成了为数众多的看不见的网站。一、看不见网站的定义系指在万维网上可以获得的资源，但由于技术限制，或者由于特定选择而不能或未被纳入通用搜索引擎网页索引中的文本网页、文件或其它高质量的权威性信息资源。有时也被称为“深层网站”或“黑洞”。具体地说，看不见的网站有通用搜索引擎所不包含的内容。实际上这些内容本身并不是“看不见的”，只有由于绝大部分网络用户使用信息检索工具很难找到这些内容而已。除非你知道它的确切位置，否则就很难找到它二、看不见的网站的类型从技术和非技术原因的角度考虑，可以将把看不见的网站分为四类： 1.模糊网站所谓模糊网站是指搜索引擎索引可以检索标引但又没有收录的文档。这类型的网站数量庞大，检索起来相当困难。造成这种情况的原因很多，搜索引擎搜索的深度、搜索频度，可浏览结果的最大数量，未被链接的网址（网页没有直接提交给搜索引擎以及与其他网页没有链接的网页）等等。 2.个人网站从技术上讲，个人网站能够被标引，但却被有意排除在搜索引擎之外。比如，网站管理员采用密码保护，使用robots.txt文件或“不得标引”的元图标等阻止搜索引擎spider访问、阅读和标引。一般来说，个人网站不经许可是无法访问的。 3.专用网站很大程度上，搜索引擎不能访问专用网站上的网页，因为它们只对那些同意出交换条件才能浏览内容的用户开放。只有愿意注册用户才能访问网页。注册一般是免费的，但对于搜索引擎而言，其搜索程序显然不能满足即使是最简单注册过程的要求。 4.真正看不见的网站由于某些技术上的原因，有些网站或网页是真正看不见的，搜索引擎不能检索或标引它们的内容。真正看不见的网站资源包括以下几种类型： ①搜索引擎Spider不能处理的文档格式的网页。比如PDF、Postscript、Flash及压缩文件等。这些文件几乎没有文本内容，因此难于对其分类或与其他文本文件进行相关性比较。当然，也有的文件格式Spider是能够处理的，只不过被它们省略而没有标引。 ②动态网页。搜索引擎不愿意标引此类网页，并非技术上的问题，而是不道德的文稿编排程序的使用，给搜索引擎制造大量垃圾的网页，从而使其陷入巨大的麻烦之中。因此，它们只有选择不标引有文稿编排程序指令的网站。 ③数据库。网络上可检索的数据库组成了看不见的网站中大部分内容。通过网络可以检索这些数据库，但这些数据库却不一定真正存在于网上。搜索引擎所面临的最大的技术难题是检索存储在数据库中的信息。对于检索数据库的实质内容，搜索引擎的Spider不能理解。要想检索某数据库，就必须使用数据库本身所提供的强大的检索工具。 1.未被链接的网页是看不见网站中最基本的组成部分。由于crawler根本就没有发现和获取这些网页的途径。 2.搜索引擎被设计用来标引文本，而且被高度优化来进行文本的搜索和检索。但是对于非文本数据,搜索引擎目前做得不是很好。有些搜索引擎，如Alta Vista 和HotBot，可对某些非文本文件类型，包括图像、音频或视频文件进行有限搜索。这些网页是另一种看不见的网站。有关图像、声音或视频文件的文本都能额外提供有关文件内容的线索。网页设计者按HTML图像标记符使用过的文件名或最小限度的可选择文本（ALT）上。即使这些网页可能被包含在某一搜索引擎索引里，但只能对其内容提供很少的文本线索，因而也就不能获得较高的相关分值。搜索引擎在标引主要由图像\视频和视频组成的网页方面能力有限，而对于其它类型的非文本资料，搜索引擎也存在很严重的缺陷。 3.大多数主要通用搜索引擎不能处理如下类型格式的信息 PDF或Postscript(Google除外) Flash Shockwave Executables(程序) 压缩文件(.zip,.tar等等) 标引这些文件的难点在于它们不是由HTML文本组成的。从技术上来讲，上述的大部分格式都能被索引。但由于商业原因，搜索引擎不对这些格式进行标引，因为一方面对这些文件的需求要比对HTML文本文件的需求少得多；另一方面，是由于这类格式需要更多的计算资源，所以更“难