隐蔽网页资源的挖掘利用探究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 图书馆现代技术 .福建图书馆理论与实践 (nSlIANLIBRARYTHEORYANDPRACTICE) 第29卷第3期 (Vo~29Nn3)55 隐蔽网页资源的挖掘利用探究 陆 莉 (广西财经学院图书馆 南宁 530003) 摘 要 隐蔽网页资源含有大量有价值的信息,本文在分析它产生原因的基础上,提 出可采用隐蔽网页专 门目录、改善搜索技术和用户检索策略等方法进行挖掘利用。 关键词 隐蔽网页 成因 挖掘 网络信息资源每天以数以万计的速度在增长,人 在的网页、 “动态网页”、实时信息等,由于技术上 们查找网络信息资源的主要途径是通过各种搜索引 的局限而难于收集。加上搜索软件的爬行速度远远跟 擎。但由于多方面原因,搜索引擎仅能够检索到小部 不上网页增长和变化的速度,造成搜索引擎 “看不 分的被搜索引擎索引的网页资源,网上大量的网页信 到”很多新增加的或者位置发生了变动的网页。 息是搜索引擎 “看不到”的,搜索引擎并不能收录 2、非技术原因 网络上的所有网页。据报道,普通的搜索引擎所收录 ① 商业上的原因。搜素引擎的运营需要一定的 的网页数量不会超过全部网页数量的16%,即使把 经济基础,经济实力雄厚的搜索引擎可搜索的网页数 所有的搜索引擎加起来,也只有42%的网页能被覆 量肯定要高于实力低的搜索引擎;成本因素也限制搜 盖。这些不能被普通搜索引擎看到的网页称为 “隐 索的广度与深度 ,比如索弓I非HTML格式的文件会花 蔽网页”。 费过多,跟进实时信息数据库会耗费太多的搜索引擎 一 、 隐蔽网页资源产生的原因 资源,网络公司往往不愿索引这类网络信息。另外, 1、搜索引擎技术原因 搜索引擎很大程度上要靠广告去维持运作,因此搜索 首先 ,搜索引擎一般通过 Robot、Spider、Crawl— 引擎开发商会对那些商业合作伙伴给予特殊的照顾, er、Worm等 自动搜索软件定期或不定期在 Web中漫 如将这些网站放在搜索结果靠前的位置,而那些很少 游,发现和收集各种网页。搜索软件一般从一些非常 有商业往来的网站则放在其次,有时甚至会被忽略。 流行的网页开始 ,然后顺着这些网页上的超链接来查 ②网页建设者的原因。有些网站所有者考虑到知 找其他网页。如果一个网页没有被其他网页链接,网 识产权、商业秘密、经济利益等因素,不愿意别人查 页的主人又没有把网址提交给搜索引擎,搜索引擎就 到他们的网页信息,于是会采取各种措施来限制搜索 无法收录这些网页。如知名度较小的站点因为没有被 引擎对他们网页信息的搜索,尤其是一些涉及国家机 其他网站链接,而无法被搜索引擎索引,因此在搜索 密、军事布置、商业利益等的网站,他们往往使用相 引擎中处于 “看不见”的位置。 关技术设置检索障碍或蜘蛛陷阱,有意设置 口令保 其次,网页主人有意设置 口令保护、禁止索引的 护、禁止索引的网站标引等方式,来限制搜索引擎的 网站标记,如一些商业数据库,期刊全文数据库、学 索引。 位论文数据库等学术性较强的数据库,因为需要付费 二、挖掘隐形网页资源的对策 或者注册后才能使用,搜索引擎根本无法进入这些数 隐蔽网络资源数量巨大,内容丰富,增长速度 据库中,数据库内的信息就不可能被搜索引擎发现。 快,有些具有很高的专业价值,利用普通搜索引擎的 一 般来说,搜索软件可以轻易找到数据库的接口和网 一 般搜索手段搜索,根本不能找到这些信息。目前要 关的页面,但无法像人一样与数据库进行交互,完成 挖掘这部分隐藏的信息主要有以下几方面对策: 诸如输人密

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档