网络爬虫在信息检索中研究与应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络爬虫在信息检索中研究与应用

网络爬虫在信息检索中研究与应用   摘要:本文从网络爬虫的基本概念、网络爬虫的主要作用、网络爬虫的各种类型和网络爬虫的发展方向着手进行研究。各种爬虫的研究对于我们现如今的意义也相当重大,通过网络爬虫爬取的特定信息通过专业分析,可以影响着我们的生活,如经济、健康、工作效率等方面,本文主要运用Python编写网络爬虫,实现网络爬虫的功能。了解网络爬虫如何爬取信息,如何存储所爬取的信息,从而认识其在信息检索中的关键作用。   关键词:网络爬虫;信息检索;Python   中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2017)05-0095-03   1 绪论   当今社会,数据显得越来越重要,以往人们也意识到数据的重要性,但是以前的情况面对浩如烟海的数据,人们往往望洋兴叹。因为以以前的数据处理能力,很难对大量的数据信息进行处理分析。随着计算机技术的发展,数据的处理能力得到了极大的提高,尤其是近几年开启的云时代,让人们迎来了大数据时代,人们在处理数据的能力得到提高的时候,生产数据的能力也得到了极大的提升,因此获得数据,处理数据是人们提高对数据的利用的关键。   网络爬虫可以很容易的获取互联网上的信息,是我们获取大量网络上信息的高效工具,现如今有各种各样的网络爬虫在以不同的方式获取网络上的数据,抓取网络上有用的数据,方便人们对数据进行分析和利用。本课题对于网络爬虫进行研究,了解其在信息检索中的应用,并设计简单的网络爬虫,实现其功能。   2 网络爬虫的基本概念   网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫通常从一个称为种子集的URL集合开始运行,它首先将这些URL全部放入到一个有序的待爬行队列里,按照一定的顺序从中取出URL并下载所指向的页面,分析页面内容,提取新的URL并存入待爬行URL?列中,如此重复上面的过程,直到URL队列为空或满足某个爬行终止条件,从而遍历Web。该过程称为网络爬行(Web Crawling)[1]。   对于网络爬虫,基本的工作流程首先要有一个初始的URL,这个URL可以是一开始自己确定好,也可以是由用户输入获得,然后通过URL获取到网页的信息,接着抓取网页内的相关URL,对于满足条件的信息进行抓取,直到所有的条件满足才结束爬取的过程。当然,这只是对于网络爬虫大概的一个爬取过程,对于不同的网络爬虫来说,爬取的过程是不同的,但是他们都需要有一个URL,然后还有过滤的条件,以及存储所抓取到的信息的过程。   3 网络爬虫的类型   网络爬虫根据不同的应用,爬虫系统在许多方面也存在着不同的差异,按照系统结构和实现技术,我们可以将网络爬虫分为以下几类:通用型网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。当然,实际上的网络爬虫不会是单一的技术实现,通常是由多种网络爬虫技术结合而成[2]。   3.1 通用网络爬虫   通用网络爬虫通常用于搜索引擎,它能从一些种子URL爬取大量网站,甚至是整个Web,仅仅受限于时间或者其他方面的限制,它的逻辑相比于其他提取规则的复杂的网络爬虫较为简单,但是其作用不可小觑。它主要用于门户站点搜索引擎和为大型的Web服务提供商采集数据。由于商业原因,这方面性能优秀爬虫的技术细节很少披露,但是此类的网络爬虫爬行的范围和数量巨大,并且其爬行的速度快,存储空间比较大。它们通常采用并行的方式,对爬行页面的顺序要求比较低,但是由于要刷新的页面很多,很长时间页面才能刷新一次。虽然其有一定缺陷,但是通用爬虫适用于搜索引擎,有比较强的应用价值,其结构如图1所示。   通用网络爬虫通常会采取一些爬行策略来提高爬行效率,如:深度优先策略、广度优先策略、最佳优先策略等。   (1)深度优先策略。深度优先策略所采取主要方法是按照由低到高的顺序,它首先从起始网页中的URL选择一个进入,然后对这个网页中的URL进行分析,接着再选择其中的一个URL进入,就像这样不断的层层深入,一个接着一个链接抓取,直到没有链接,不能深入为止。当一个分支爬取完后爬虫会返回上个分支继续爬取未爬取的链接,直到所有的链接遍历完成后,这时的爬行任务才算结束。其实,深度优先策略设计较为简单,但是若其爬取较深的站点时会造成资源的大量浪费,而且随着链接的深入,链接自身的价值往往较低,所有相较于其它两种策略,通常这种策略很少被用到。(2)广度优先策略。广度优先策略是指在爬虫

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档