一种通用Web信息采集系统的设计与实现.PDFVIP

下载本文档

0
0
约1.33万字
约 3页
2017-08-19 发布于天津
举报
版权申诉

一种通用Web信息采集系统的设计与实现.PDF

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种通用Web信息采集系统的设计与实现.PDF

第31卷第3期计算机工程 2005年2月 VoL31 抽了 ComputerEngineering February2005 ·网络与通信 · 文章编号:1000-3428(2005)03-41123-02 文献标识码:A 中图分类号:TP391 一种通用Web信息采集系统的设计与实现吴丽辉，王斌，余智华 (中国科学院计算技术研究所软件研究室，北京100080;中国科学院研究生院、摘要:介绍了一种通用的Webi言息采集系统，给出了系统总体结构，分析了信息采集器、采集控制服务器和信息发布服务器，讨论了系统实际的应用。实践证明，该系统能够对Internet信息进行自动采集，并对今后的应用提供充分的支持，具有良好的通用性。关健侧:信息采集;信息处理;搜索引擎 DesignandRealizationofaGeneralWebCrawler WULihui,WANG Bin,YUZhihua (Sot1wareDivision,InstituteofComputingrechnology,ChineseAcademyofSciences,Beijing100080; GraduateSchoolorChineseAcademyofSciences) (AbstractIThepaperintroducesthedesignandrealizationofageneralWebcrawler,presentsthewholestructureofthesystem,analyzesgather, controlanddatapublish,discussesthepracticalapplications.TheexperimentprovesthatthesystemcanautomatecrawlInternetinformationandprovide sufficiencysupportforfollowinginformationapplications,andhavenicegenerality. IKeywordsIWebcrawler;Informationprocessing;Searchengine 随着Internet的迅速发展与普及，网络已发展成为经务器。系统可以同时设置多个信息采集器并行采集，但只能济、社会、文化、教育以及娱乐等几乎所有领域重要组成部有一个来集控制服务器和信息发布服务器。它们(以一台采分。而WWW本身作为一个庞大的分布式异构超文本文档集器为例)既可以分别安装在3台机器上，也可以两个任意组库，从1991年诞生至今，其信息容量呈爆炸性的增长。互联合安装在两台机器上，如果空间允许的话，还可以安装在一网在给人们提供丰富信息的同时，又给人们在有效使用方面台机器上，但必须通过修改监听端计号，才能使它们各自运提出了巨大挑战。随着互联网的迅速发展，各种采用新技术行，‘互不干扰。的互联网信息搜索引擎也在不断涌现，如Google.Yahoo. 基于Web的信息采集技术也正日益受到人们的关注，成为一个新的研究课题。基于Web的信息采集(WebCrawling)，主要是指通过Web页面之间的链接关系，从WebL自动获取页面信息，并且随着链接不断向整个Web扩展的过程。哪弋羚1 传统的Web信息采集的目标大都是服务于某个特定的系统。如Google，利用若干分布式的Crawler进行网页的搜取工作，采集下来的文件被存入StoreServer，在那里被压缩后送到存储库中。由索引器和排序器完成索引工作。排序器产生倒排索引。排序器还将产