基于HTMLParser和HttpClient的网络爬虫原理与实现.pdfVIP

基于HTMLParser和HttpClient的网络爬虫原理与实现.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电脑编程技巧与维护 基于和 的网络爬虫原理与实现 张亮 扬州工业职业技术学院电子信息工程系,江苏扬州 摘 要:介绍了网络爬虫的技术原理,给出了使用 、 和 实现简单网络爬虫的程序框架, 对同类研究有一定的参考作用。 关键词: 网络爬虫; ; , , :, ? 、 .: ;;爬虫从一个或若干初始网页的开始,由分析下载模 引言 块下载初始页面上的所需信息,并分析获得初始网页上的 随着以互联网为代表的各种网络技术的飞速发展,网络 。爬虫的工作流程较为复杂,需要根据一定的网页分析算 上存储的各种信息已经可以用海量来形容,如何在海量的信 法过滤与主题无关的链接,保留有用的链接并将其放人等待 息中快速检索到所需要的信息,成为了网络技术研究领域的 一 抓取的队列。然后,由调度模块根据一定的搜索策略从 大热点。搜索引擎在此条件下应运而生。最初始的搜索引 队列中选择下一步要抓取的网页,并将该传递给分 擎采用人工方式收集信息,由编辑员查看信息之后,人工形 析下载模块重复上述分析下载过程。每一次分析下载模块抓 成信息摘要,并将信息置于事先确定的分类框架中。这种方 取网页的过程中,都不断从当前页面上抽取新的放入队 法虽然准确可靠,但随着网络的飞速发展,在信息收集的数 列,直到满足系统的一定停止条件。另外,所有被爬虫抓取 量和更新速度上已经远远无法满足要求,因此目前绝大多数 的网页将会被存储系统存储,进行一定的分析、过滤,并建 搜索引擎都采用自动化的信息收集方式,由一个称为网络爬 立索引,以便之后的查询和检索。 虫的机器人程序以某种策略自动地在互联网中搜集和发现信 息,由索引器为搜集到的信息建立索引。该类搜索引擎的优 网络爬虫程序实现 点是信息量大、更新及时、毋需人工干预。可以看到,网络 使用 语言来实现一个简单的网络爬虫程序。选择 爬虫程序的质量直接关系到搜索引擎的质量,因此是目前网 语言是因为其有丰富的程序库资源。另外 语言本身 络技术研究领域的一个热点。 就支持队列和多线程等功能,能极大地方便程序的开发。根 据图 的系统模型,程序主要由 个类构成: 、 ? 网络爬虫原理 、、 。是程序的起 网络爬虫是一个自动提取网页上资源的程序,它为搜索 始类,主要功能是设置爬虫初始下载的以及程序的一些 引擎从互联网上下载网页,是搜索引擎的重要组成。一个基 基本参数,如最多爬取的网页数,需要处理的资源的关键字 本的网络爬虫程序的模块如图 所示。 等。 类主要对网页进行下载和存储。网页保存 在网站的服务器上,如果需要下载必须通过协议来进 行。如果自己编程来实现的协议将相当的繁琐。此时 语言的强大就完美的展示了出来,对于常用的功能,是 一 定可以找到已有的成熟的代码库进行复用。这些代码无论 从功能上还是效率上都已经经过了实践的检验,一般来说, 资源 肯定优于自己开发的代码。充分利用了 ?这个程序库所提供的 组件来处理 协 下转到 页 作者简介:张亮一 ,男,硕士,助教,主要从事计算 机专业课程教学及科研工作。 图 网络爬虫模块 收稿日期: ? . 巧与.簟...护.∥毫 墨技 ?目

您可能关注的文档

文档评论(0)

liyxi26 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档