一种通用Web信息采集系统的设计与实现.PDFVIP

一种通用Web信息采集系统的设计与实现.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种通用Web信息采集系统的设计与实现.PDF

第31卷 第3期 计 算 机 工 程 2005年2月 VoL31 抽 了 ComputerEngineering February2005 ·网络与通信 · 文章编号:1000-3428(2005)03-41123-02 文献标识码:A 中图分类号:TP391 一种通用Web信息采集系统的设计与实现 吴丽辉,王 斌,余智华 (中国科学院计算技术研究所软件研究室,北京100080;中国科学院研究生院、 摘 要:介绍了一种通用的Webi言息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统 实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。 关健侧:信息采集;信息处理;搜索引擎 DesignandRealizationofaGeneralWebCrawler WULihui,WANG Bin,YUZhihua (Sot1wareDivision,InstituteofComputingrechnology,ChineseAcademyofSciences,Beijing100080; GraduateSchoolorChineseAcademyofSciences) (AbstractIThepaperintroducesthedesignandrealizationofageneralWebcrawler,presentsthewholestructureofthesystem,analyzesgather, controlanddatapublish,discussesthepracticalapplications.TheexperimentprovesthatthesystemcanautomatecrawlInternetinformationandprovide sufficiencysupportforfollowinginformationapplications,andhavenicegenerality. IKeywordsIWebcrawler;Informationprocessing;Searchengine 随着Internet的迅速发展与普及,网络已发展成为经 务器。系统可以同时设置多个信息采集器并行采集,但只能 济、社会、文化、教育以及娱乐等几乎所有领域重要组成部 有一个来集控制服务器和信息发布服务器。它们(以一台采 分。而WWW本身作为一个庞大的分布式异构超文本文档 集器为例)既可以分别安装在3台机器上,也可以两个任意组 库,从1991年诞生至今,其信息容量呈爆炸性的增长。互联 合安装在两台机器上,如果空间允许的话,还可以安装在一 网在给人们提供丰富信息的同时,又给人们在有效使用方面 台机器上,但必须通过修改监听端计号,才能使它们各自运 提出了巨大挑战。随着互联网的迅速发展,各种采用新技术 行,‘互不干扰。 的互联网信息搜索引擎也在不断涌现,如Google.Yahoo. 基于Web的信息采集技术也正日益受到人们的关注,成为一 个新的研究课题。基于Web的信息采集(WebCrawling),主 要是指通过Web页面之间的链接关系,从WebL自动获取页 面信息,并且随着链接不断向整个Web扩展的过程。 哪弋羚1 传统的Web信息采集的目标大都是服务于某个特定的系 统。如Google,利用若干分布式的Crawler进行网页的搜取 工作,采集下来的文件被存入StoreServer,在那里被压缩后 送到存储库中。由索引器和排序器完成索引工作。排序器产 生倒排索引。排序器还将产

文档评论(0)

2752433145 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档