文献综述-基于C++的网络爬虫的设计与实现.docVIP

下载本文档

20
0
约6.14千字
约 6页
2020-11-02 发布于浙江
举报
版权申诉

文献综述-基于C++的网络爬虫的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于C++的网络爬虫的设计与实现的研究综述作者：xxx 指导老师：xxx 摘要：本文归纳了网络爬虫的设计与实现方面的研究内容，概括了网络爬虫的定义与爬取策略、网络爬虫的体系结构、设计网络爬虫的关键问题以及爬虫身份的识别等方面的观点，并总结了如何通过一个或多个给定的种子网站，将网站上相应的网页抓取下来，并将其存入数据库或文本文件中的研究成果。本文也指出了如何通过解决传统的通用搜索引擎在某些领域的局限性，帮助人们更加有效地提取与利用互联网信息，进而提高人们在检索信息效率方面的研究需求。最后，本文提出了一个满足用户需求的网络爬虫的开发方案。关键词：网络爬虫；通用搜索引擎；互联网 The Design and Implementation of Web Spider Based on C++ Author: xxx Tutor: xxx Abstract：This paper summarizes the research about the design and implementation of the web spider, summarizes the view about the definition of web spider, the crawling strategy of the web spider, the architecture of the web spider, the key issues to design the web spider and identification of the web spider , and summarizes the research about how to catch the webs which links to the corresponding web site through one or more given seed site, and then stores it into a database or text file . The paper also points out how to solve the limitations of the Traditional General Search Engine in some areas , help people more effectively extract the information and make use of the Internet, then improve people’s research needs in the area of ??information retrieval. In the end, the paper proposes a web spider development plan which can meet the user’s needs. Keywords: Web Spiders ; Tradition Universal Search Engine ; Internet 随着网络技术的发展，信息的提取与利用在人们的日常生活中越来越重要。搜索引擎由于能够从浩瀚的网络资源中给用户提供对用户有用的信息而获得长足的发展，自诞生以来，搜索引擎获得了越来越多用户的青睐，成为人们日常生活中检索信息必不可少的搜索工具。研究背景随着经济社会的发展，人们对信息搜索提出了更高的要求。传统搜索引擎，例如传统的通用搜索引擎AltaVista，Yahoo!和Google大都是基于关键字的检索，对根据语义信息提出的查询却无能为力，搜索结果常常包含大量用户并不关心的网页；随着万维网的数据形式的不断丰富与网络技术的不断发展，图片、数据库、音频及视频多媒体等不同数据形式大量出现，传统搜索引擎对这些信息含量密集且具有一定数据结构的数据不能很好的获取和发现。另外，传统搜索引擎有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾也日益突出。为了解决这些问题，人们设计实现一个能够根据用户提供的种子网站，定向抓取相关网页资源的网络爬虫。网络爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。它并不追求大的覆盖率，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。 1.网络爬虫的定义及爬行策略一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定