- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
补充教材5:
搜索引擎的网络搜索 “盲区”
在互联网上可获得的但传统的搜索引擎由于技术限制不能搜寻到或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息。中文又有“隐形网络”“隐蔽网络”、“看不见的网络”、“深网”、“暗资源”等说法。
理解其含义可从与之相对Visible Web(又称Surface Web)手。Visible Web指用户通过一般搜索引擎可以检索到的网络资源,Invisible Web即指可通过万维网获得的文本网页、文件或其他高质量的权威性信息,但由于技术限制,或是由于特定选择而不能或未被纳入通用搜索引擎的网页索引。换句话说,就是说这些内容本身并非“看不见”,但是,由于绝大多数网络用户使用信息检索工具很难查到这些内容。因此,才说这
(一)为何网络“看不见”
1.搜索引擎自身存在的技术障碍
(1)搜索引擎自动代理搜索软件的工作原理(通过点击网页上的超链接来提取新 搜索引擎通过点击网页上的超链接获得新的网址,如果一些网页既未与任何其他网页建立相关链接,也没有主动提交给搜索引擎的话,搜索引擎根本无法对其进行索引,这些无法被索引的网页资源就成为网络的空白地带,也构成了“看不见”的网络中最基本的组成部分。
(2)搜索引擎索引没有文字线索的非文本类型的文件能力较弱 搜索引擎对许多类型的非文本文件的索引能力很弱,也会造成这类文件的“隐蔽”,许多极少或根本不带文本的图像、声频或视频文件根本无法被搜索引
(3)搜索引擎仍以静态网页为主要索引对象,无法实现对动态信息的检索 搜索引擎对动态信息的检索能力较差。像如股票报价、气候信息、航班到达信息等流动或实时数据,由于其变化过于频繁,且具有很强的时效性,所以没有必要对其索引,另外,与实时信息保持同步需要耗费太多的资源,这对于自动代理软件来说实际上是不可能的。
(4)搜索引擎不能完成输入动作,无法检索网络数据库搜索引擎通过自动代理软件工作,而这些软件无法进行“type”(输入)动作,就无法完成登录、输入检索词等动作,这给搜索引擎带来了最大的技术难题即无法检索存储在数据库中的信息。因为网络数据库采用的是以数据库为后台、动态网页技术与数据库技术相结合的资源组织方式。用户在网络数据库检索页面上输入检索词,获得的页面是针对用户此次的检索词和其他一些检索限制而动态生成的网页,谓之动态网页。但是,搜索引擎代理软件无法像人一样与数据库进行交互,完成诸如输入密码、
2.搜索引擎对自动代理软件的访问限制
(1)对搜索内容的格式进行限制导致不可见搜索引擎一般只收录HTML网页文件,而对于用户不经常检索的文件格式,比如PDF或附件(Google除外)、Flash、Shockwave、Executables(程序)、压缩文件(.zip,.rar)等选择不加收录,这主要是基于商业因素的考虑所致。HTML是互联网上最基本的通用语言,搜索引擎的自动代理软件最擅长处理HTML语言写成的网页文件,处理其他类型的文件在技术上没有很大的难题,但因为对这类文件的需求要比超文本文件的需求少得多,这类格式需要更多的计算资源和运营成本,所以搜索引擎开发商一般将之排除在外。不过近两年来已有一些搜索引擎正在努力扩展和完善其检索服务,例如Google、百度,现在可以通过Google、百度检索图片、PDF、Word、Power Point等多种格式的文档。
(2)搜索引擎对索引深度、索引频率的限制导致不可见搜索引擎对代理软件索引网页的深度和数量一般都有所限制,通常索引网站主页及下级页面,而不可能深入到所有页面,在搜索数量上也有最大容量的限制,使得某一站点的网页不可能每一页都收录。搜索引擎对文档搜索频率也有限制,如新网页或某个网站内容更新,搜索引擎更新数据库的时间间隔一般是1~2个月,而每个月大约有40%的网页会发生变动,在此期间这些Google刷新数据库的时间间隔通常为1个月,一般1个月后网页便可出现在搜索结果中,但对于一个全新的网站来说,这一过程可能需要2个月。
(3) Spider陷阱对于基于脚本语言的网页,如果其URL中含有“?”,SPIDER通常放弃对该类网页的访问。为什么呢?因为在访问此种网页时,SPIDER有可能陷入恶意的“SPIDER TRAP”程序当中,导致SPIDER陷入死循环,影响搜索引擎的正常运转。因此,搜索引擎一般限制SPIDER访问该类网页。
(4)因遵守机器人排除协议或当地政策限制而不可见机器人协议是一套规则,按照该规则,网站管理员可以规定服务器的哪些部分允许搜索引擎自动代理软件进入,哪些部分不可进入。管理员只需创建一个不能被搜索和标引的文件或目录表,并将该表以Robot. txt命名的文件储存在服务器中。Robot. txt文件主要用于防止对个人网页、文件组甚至
您可能关注的文档
- 艾尔肯.赛买提 搜索引擎发展历史研究.doc
- 艾斯哲学 第一卷 绝对运动主义.ppt
- 高等化工热力学-第6章05436.ppt
- 高等结构动力学1.pdf
- 补充1 搜索引擎.ppt
- 补充——10章资本市场均衡理论.ppt
- 高二化学理科实验班第二节 合成材料.ppt
- 高二--运动学问题.doc
- 高二哲学运动规律 使用1.doc
- 高分子材料 复习课.ppt
- 通信行业研究:特朗普关税令落地,长期看好国产算力链.pdf
- 关税一波三折,布局短期错杀标的轻工制造最新完整版本.pdf
- 养老康护机器人:陪伴长者的贴心助手,关怀与科技的温馨融合-头豹词条报告系列.pdf
- 安徽省宣城市2024-2025学年八年级上学期期末考试数学试卷答案.docx
- 福建省福州第一中学2024-2025学年七年级上学期期末考试数学试卷答案.docx
- 安徽省宣城市2025届九年级上学期1月期末考试数学试卷答案.docx
- 高中语文2025届高考名校4月上旬联考作文练习(共12篇,附写作指导和参考范文).doc
- 初中英语新人教版七年级下册Unit 1—Unit 4单词巧记法(2025春).doc
- 初中英语新人教版七年级下册期中综合练习(附参考答案).doc
- 零售:提振消费专项行动为经济发展注入新动力.pdf
文档评论(0)