- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于NCrawler的网络爬虫设计及其应用探讨-软件技术
基于NCrawler的网络爬虫设计及其应用探讨-软件技术
基于NCrawler的网络爬虫设计及其应用探讨
杨琳1 慕云逸2 时铭月3
1(上海计算机软件技术开发中心 上海 201112)
2(上海民航华东凯亚系统集成有限公司 上海 200233)
3(上海华虹宏力半导体制造有限公司 上海 201203)
摘 要 网络爬虫技术经过多年的发展,传统的应用和分析相对成熟,但是随着大数据、移动互联网时代的到来,在大规模、海量异构、隐蔽信息的实时快速采集和获取方面,仍然存在诸多的困难。本文对网络爬虫的技术原理进行分析,开发了基于NCrawler的网络爬虫软件并进行应用,可依据 关键词 灵活在网页深度、广度搜索两种搜索策略中调整权重,具有广泛的扩展能力,支持各种类型及格式资源的爬取。最后本文对网络爬虫技术的应用领域和趋势进行了分析和展望。
关键词 网络爬虫,NCrawler,网络爬虫设计,网络爬虫应用
doi:10.3969/j.issn.1674-7933.2016.05.06
Based on NCrawler Web Crawler Design and Application
YANG Lin1 MU Yunyin2 SHI Mingyue3
Abstract In order to make sure that the security system of every community can be linked to the generalmanagement and information platform of street town (parks), based on the analysis of related technical document,referring current national standards, industry standards and local standards, based on the network requirements of thesecurity system of Miaohang Town, Baoshan District, after the analysis of equipment interface protocol of digital videosafety control system, network system and safely docking plans, entrance control system feature carrier, basic confi gof security technology and protection system , access control system and data docking plans, methods of elevator carmonitoring and so on, compiled the technical standard of community security and protection network system.
KeyWords Device Interface Protocol, Network System Safely Docking, Entrance Control System
0 引言
网络爬虫(Web Crawler)是指按照一定规则运行,可以自动获取多种网络资源并将其存储在指定位置的程序或脚本,已在互联网上得到广泛的应用,又被称为网络蜘蛛或网络机器人。网络爬虫是互联网搜索引擎的核心和众多互联网应用的基础,其性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。网络爬虫也是网络舆情监控的主要技术手段之一,是网络舆情监控采集系统的核心和基础,同时也是当前大数据相关的数据采集技术的重要组成部分。本文对网络爬虫的技术原理进行分析,开发了基于NCrawler的网络爬虫软件并进行应用,该软件采用广度优先和深度优先两种策略,具有广泛的扩展能力,支持各种类型及格式资源的爬取。
1 技术原理及分析
1.1 爬取过程
网络爬虫可以对网页内容进行自动提取,根据URL获得互联网中的多种资源,如网页、文本、图片、音频、视频、应用程序等等,并对不同类型的文件进行自动分类。其实现过程包括网络爬虫从人工指定的一个或多个初始URL开始爬行,提取页面内容并获得后续爬行指向,按照爬行策略在爬行过程中不断获得新的URL,分状态使用不同队列来保存已爬行和未爬行的URL
文档评论(0)