网络爬虫在信息检索中研究与应用.docVIP

下载本文档

117
0
约5.81千字
约 12页
2018-09-18 发布于福建
举报
版权申诉

网络爬虫在信息检索中研究与应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络爬虫在信息检索中研究与应用

网络爬虫在信息检索中研究与应用　　摘要：本文从网络爬虫的基本概念、网络爬虫的主要作用、网络爬虫的各种类型和网络爬虫的发展方向着手进行研究。各种爬虫的研究对于我们现如今的意义也相当重大，通过网络爬虫爬取的特定信息通过专业分析，可以影响着我们的生活，如经济、健康、工作效率等方面，本文主要运用Python编写网络爬虫，实现网络爬虫的功能。了解网络爬虫如何爬取信息，如何存储所爬取的信息，从而认识其在信息检索中的关键作用。　　关键词：网络爬虫；信息检索；Python 　　中图分类号：TP391.3 文献标识码：A 文章编号：1007-9416（2017）05-0095-03 　　1 绪论　　当今社会，数据显得越来越重要，以往人们也意识到数据的重要性，但是以前的情况面对浩如烟海的数据，人们往往望洋兴叹。因为以以前的数据处理能力，很难对大量的数据信息进行处理分析。随着计算机技术的发展，数据的处理能力得到了极大的提高，尤其是近几年开启的云时代，让人们迎来了大数据时代，人们在处理数据的能力得到提高的时候，生产数据的能力也得到了极大的提升，因此获得数据，处理数据是人们提高对数据的利用的关键。　　网络爬虫可以很容易的获取互联网上的信息，是我们获取大量网络上信息的高效工具，现如今有各种各样的网络爬虫在以不同的方式获取网络上的数据，抓取网络上有用的数据，方便人们对数据进行分析和利用。本课题对于网络爬虫进行研究，了解其在信息检索中的应用，并设计简单的网络爬虫，实现其功能。　　2 网络爬虫的基本概念　　网络爬虫（Web Crawler），又称为网络蜘蛛（Web Spider）或Web信息采集器，是一个自动下载网页的计算机程序或自动化脚本，是搜索引擎的重要组成部分。网络爬虫通常从一个称为种子集的URL集合开始运行，它首先将这些URL全部放入到一个有序的待爬行队列里，按照一定的顺序从中取出URL并下载所指向的页面，分析页面内容，提取新的URL并存入待爬行URL?列中，如此重复上面的过程，直到URL队列为空或满足某个爬行终止条件，从而遍历Web。该过程称为网络爬行（Web Crawling）[1]。　　对于网络爬虫，基本的工作流程首先要有一个初始的URL，这个URL可以是一开始自己确定好，也可以是由用户输入获得，然后通过URL获取到网页的信息，接着抓取网页内的相关URL，对于满足条件的信息进行抓取，直到所有的条件满足才结束爬取的过程。当然，这只是对于网络爬虫大概的一个爬取过程，对于不同的网络爬虫来说，爬取的过程是不同的，但是他们都需要有一个URL，然后还有过滤的条件，以及存储所抓取到的信息的过程。　　3 网络爬虫的类型　　网络爬虫根据不同的应用，爬虫系统在许多方面也存在着不同的差异，按照系统结构和实现技术，我们可以将网络爬虫分为以下几类：通用型网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。当然，实际上的网络爬虫不会是单一的技术实现，通常是由多种网络爬虫技术结合而成[2]。　　3.1 通用网络爬虫　　通用网络爬虫通常用于搜索引擎，它能从一些种子URL爬取大量网站，甚至是整个Web，仅仅受限于时间或者其他方面的限制，它的逻辑相比于其他提取规则的复杂的网络爬虫较为简单，但是其作用不可小觑。它主要用于门户站点搜索引擎和为大型的Web服务提供商采集数据。由于商业原因，这方面性能优秀爬虫的技术细节很少披露，但是此类的网络爬虫爬行的范围和数量巨大，并且其爬行的速度快，存储空间比较大。它们通常采用并行的方式，对爬行页面的顺序要求比较低，但是由于要刷新的页面很多，很长时间页面才能刷新一次。虽然其有一定缺陷，但是通用爬虫适用于搜索引擎，有比较强的应用价值，其结构如图1所示。　　通用网络爬虫通常会采取一些爬行策略来提高爬行效率，如：深度优先策略、广度优先策略、最佳优先策略等。　　（1）深度优先策略。深度优先策略所采取主要方法是按照由低到高的顺序，它首先从起始网页中的URL选择一个进入，然后对这个网页中的URL进行分析，接着再选择其中的一个URL进入，就像这样不断的层层深入，一个接着一个链接抓取，直到没有链接，不能深入为止。当一个分支爬取完后爬虫会返回上个分支继续爬取未爬取的链接，直到所有的链接遍历完成后，这时的爬行任务才算结束。其实，深度优先策略设计较为简单，但是若其爬取较深的站点时会造成资源的大量浪费，而且随着链接的深入，链接自身的价值往往较低，所有相较于其它两种策略，通常这种策略很少被用到。（2）广度优先策略。广度优先策略是指在爬虫