DeepWeb爬虫研究与设计.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DeepWeb爬虫研究与设计.pdf

ISSN 1000-0054 清华大学学报 (自然科学版) 2005 年 第 45卷 第 1 期 36/39 S CN 11-2223/N J T singhua U niv (Sci T ech), 2005, V ol.45, N o.S1 1896-1902 Deep Web 爬虫研究与设计 郑冬冬, 赵朋朋, 崔志明 (苏州大学 计算机科学与技术系, 苏州 215006) 摘 要: 随着 W eb 的发展,越来越多的数据可以通过表单 普通搜索引擎难以发现其信息内容的 W eb 页面。 提交来获取,这些表单提交所产生信息是由 Deep W eb 后台 2001 年 ChristSherm an 和 G ary Price 对 D eep W eb 数据库动态产生的。在这种情况下,信息集成就更加需要 定义为: 虽然通过互联网可以获取,但普通搜索引 W eb 爬虫来自动获取这些页面以进一步地处理数据。为了 擎由于受技术限制而不能或不作索引的那些文本 帮助用户完成这样的任务,提出一种用于搜集 D eep W eb 页 页、文件或其他通常是高质量、权威的信息。最近对 面的爬虫的设计方法。此方法使用一个预定义的领域本体知 D eep W eb 的研究[ 1] 得到了一些有意义的发现: 识库来识别这些页面的内容,同时利用一些来自 W eb 站点 的导航模式来识别自动填写表单时所需进行的路径导航。通 1) 目前 Deep W eb 大约有 307 000 个站点, 过对来自不同领域的 D eep W eb 站点的大量实验,验证了此 450000 个后台数据库和 1258 000 个查询接口。其 方法是非常有效的。 信息资源仍在迅速增长,从 2000 年到 2004 年,它增 关键词: D eep W eb; 导航模式; 领域本体知识库; 爬虫 长了 3~7 倍。 中图分类号: T P 393 文献标识码: A 2) D eep W eb 内容分布于多种不同的主题领 文章编号: 1000-0054(2005)S1-1896-07 域,尽管电子商务是主要的驱动力量, W eb 数据库 的发展趋势不仅在此领域,同时在非商业领域占的 比重相对更大些。 On the research and design of 3) 当今的 W eb 爬虫并非完全爬行不到 Deep deep web crawler W eb 后台数据库内容,当前主要的搜索引擎已经覆 ZHENG Dongdong, ZHAO Pengpeng, CUI

文档评论(0)

xingkongwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档