- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
网络爬虫
Contents素养目标熟悉国内比较常用的网络爬虫工具技能目标能够根据需要使用网络爬虫工具对网络数据进行采集知识目标了解网络爬虫的概念、原理、分类及应用
网络爬虫的概念网络爬虫(又称网络蜘蛛)提取信息访问网站浏览网页时的行为模拟人类是一种自动地在互联网上收集信息的程序。
网络爬虫的基本原理工作原理解析网页代码,找到链接。继续访问其他网页。网页上的信息被提取并存储在数据库中供后续使用。
网络爬虫的工作原理预先设定一个或若干初始网页的URL,将初始URL加入待爬取的URL列表。1从待爬取的URL列表中逐个读取URL,并将URL加入已爬取的URL列表中,然后下载网页。2解析已下载的网页,提取所需的数据和新的URL,并存储提取的数据。3将新的URL与已提取的URL列表进行比对,检查该网页是否已爬取,如果网页没有被爬取,则将新的URL放入待爬取URL列表的末尾,等待读取。4如此往复,直到待爬取URL列表为空或者满足设定的停止条件,最后达到遍历网页的目的。5
网络爬虫的类型通用网络爬虫聚焦网络爬虫增量式网络爬虫深层页面爬虫按照系统结构和实现技术划分:WWW.
通用网络爬虫网络爬虫的类型又称全网爬虫,是根据网络爬虫的基本原理实现的。初始设定的URL扩充到全网主要应用于门户网站、搜索引擎和大型网络服务提供商的数据采集。聚焦网络爬虫目标是与预先定义好的主题相关的网页。爬取目标极大节省硬件和网络资源主要应用于对特定领域信息有需求的场景。只爬取与主题相关的网页爬取目标
增量式网络爬虫网络爬虫的类型有更新的已下载网页爬取目标新产生的网页+深层页面爬虫爬取目标不能通过静态链接获取隐藏在搜索表单后只有用户提交一些关键词才能获得的网页如用户注册后才可显示的内容。爬虫程序监测网站数据更新的情况,然后在需要的时候只爬取发生更新或新产生的网页。
网络爬虫的应用
网络爬虫的应用爬虫程序每天连续地爬取相关网站。百度爬虫Baiduspider谷歌爬虫Googlebot每个独立的搜索引擎都有自己的爬虫程序1
网络爬虫的应用企业用户在采集和分析数据时也时常会借助网络爬虫2以确定爬取产品的用户信息目标客户群体以制定爬取同类产品的销售信息营销策略普通用户也可以根据自己关注的主题采集所需要的数据3例如:WWW.通过爬虫程序保存下来实现可见即可得。
网络爬虫的应用企业用户在采集和分析数据时也时常会借助网络爬虫2以确定分析产品的用户信息目标客户群体以制定分析同类产品的销售信息营销策略普通用户也可以根据自己关注的主题采集所需要的数据3例如:例如:爬取网站上的图片学术网站的论文团购网站的价格及点评各种电商平台的商品信息招聘网站的招聘信息
网络爬虫工具的工作流程浏览器提交请求下载网页代码解析成页面模拟浏览器发送请求(获取网页代码)提取有用的数据存放于数据库或文件中爬虫一般是使用第二种方式。用户获取网络数据有两种方式:第一种:第二种:
网络爬虫工具的工作流程爬取流程如下图所示:发送请求获取响应内容解析内容保存数据
网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤:
网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤:即获取网页的源代码,源代码里包含了网页的有用信息。
网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤:指根据网页结构,分析网页源代码,从中提取想要的数据。最常用的方法是正则表达式。变得杂乱的数据条理清晰
网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤:保存数据的方式有很多种。也可以保存到数据库中,如MySQL和MongoDB等。可以简单保存到JSON或CSV文件
八爪鱼采集器常用的网络爬虫工具是由深圳视界信息技术有限公司自主研发的。一款集网页数据采集、移动互联网数据及API服务等于一体的数据服务平台。数据爬虫数据优化数据挖掘数据存储数据备份
后羿采集器常用的网络爬虫工具是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件。特点功能强大,操作简单。适合行业用户群:无编程基础者运营销售金融新闻电商数据分析政府机关学术研究
法律法规网络爬虫目前还处于早期的蛮荒阶段处于建设之中“允许哪些行为”如果抓取数据的行为用于个人使用通常不存在问题如果数据用来转载需要注意原创作品的版权问题爬取数据时需要注意:应当约束自己的抓取行为。尽量不要高强度、高频率的下载数据。从目前的实践来看:
法律法规很多网站都会定义robots.txt文件让爬虫了解爬取该网站时,存在哪些限制,下面的地址列出一些知名网站的robots.txt访问地址:/robots.txt(淘宝)/robots.txt (京东)/robots.txt?(亚马逊)
法律法规例如通过访问京东的robots.txt内容,可以看出标识了哪些地址允许访问,哪些不允许,以及所允
您可能关注的文档
- 《Linux集群管理》课件——基于域名的虚拟主机.pptx
- 《针法灸法》课件——针法灸法概论.pptx
- 《航空材料无损检测》课件——航空金属材料-高温合金.pptx
- 《雷达原理》课件——3.3.1教学课件:测角方法.pptx
- 《Linux集群管理》课件——部署discuz论坛.pptx
- 《雷达原理》课件——3.3.2 教学课件:天线波束.pptx
- 《安装工程预算与电算化》课件——项目3 建筑给排水工程预算.pptx
- 《雷达原理》课件——3.4.3教学课件:速度测量.pptx
- 《测量误差与数据处理》课件——判别粗大误差的准则-3σ准则.pptx
- 《快递运营》课件——项目六 快递客户服务与管理.ppt
最近下载
- 粤教版(2019)高中信息技术必修一第三章 算法基础(教学设计).docx VIP
- 《植物组织培养》期末复习总结及试题.docx
- 16.田忌赛马(集备表格教案)-部编版语文五年级下册.doc VIP
- 人教版(2024)七年级地理上册3.1《大洲和大洋》优质课件.pptx
- 《变频器技术及应用》电子教案 单元设计 变频器主电路结构及功能认知(单元设计1-3).pdf VIP
- 农村生活污水处理工程初步设计.doc
- 小学残疾儿童送教上门教案(40篇).pdf
- 景观水池防水施工方案.doc VIP
- 防水层施工方案·.docx VIP
- 宿迁学院2023-2024学年第1学期《宏观经济学》期末考试试卷(B卷)含参考答案.docx
文档评论(0)