Python人工智能技术与应用课件:完成 Python 网络爬虫实训.pptxVIP

Python人工智能技术与应用课件:完成 Python 网络爬虫实训.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

完成Python网络爬虫实训

掌握Python人工智能的基础应用;

任务导入TaskMp

BI产品需要大量的高质量的数据,该商业咨询公司已拥有的数据量

无法形成较大的数据规模,现需要解决数据的来源问题。

你作为该公司商业智能团队中的Python爬虫工程师,你的主要职责是

开发和维护一个自动化的爬虫系统,从互联网上获取大量的数据。;

任务目标

知识目标

·认识网络爬虫的基本流程。

·了解Python爬虫工具库及其使用方法。

·了解Python实现网络爬虫的流程及其Python实现。

·掌握使用Selenium库实现对汽车之家网站的连接和访问。;

网络爬虫基本流程

常见Python爬虫工具库

爬取汽车之家口碑数据项目实训;

网络爬虫基本流程

搜索引擎可以帮助人们检索信息,如百度、搜狗、谷歌等,但也存在一定的局限性。

难以满足不同用户的检索目的和需求

有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾

图片、数据库、音频、视频多媒体等不同数据的发现和获取

基于关键字的检索难以支持基于语义信息的查询。;

网络爬虫(又称网页蜘蛛,网络机器人

在FOAF社区中间,更经常地被称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫是一种程序,可以自动化地从互联网上收集信息。;

网络爬虫基本流程

确定要爬取的网站和页面

首先,你需要确定要爬取的网站和页面。你可以选择从一个或多个网站开始,然后选择要爬取的页面。

发送HTTP请求

在开始爬取之前,需要向目标网站发送HTTP请求。这可以通过使用Python中的请求库(例如Requests库)来完成。你需要向目标网站发送请求,并等待它们响应。;

确定要爬取的网站和页面

首先,你需要确定要爬取的网站和页面。你可以选择从一个或多个网站开始,然后选择要爬取的页面。

发送HTTP请求

在开始爬取之前,需要向目标网站发送HTTP请求。这可以通过使用Python中的请求库(例如Requests库)来完成。你需要向目标网站发送请求,并等待它们响应。;

序号;

??号;

序号;

爬取汽车之家口碑数据项目实训

(一)实现思路

汽车之家是一个汽车行业门户网站,它提供了广

泛的汽车信息,包括汽车口碑数据。汽车之家的口碑数据是基于用户提交的评论、评分和其他数据编制的。可采用如下方式实现案例:

使用Selenium打开汽车之家网站

使用Lxml库解析网页

将数据保存到excel文件;

爬取汽车之家口碑数据项目实训

(二)实现流程

使用Selenium打开汽车之家网站,获取页面的HTML源码

创建一个ChromeOptions对象,并添加了一些参数来配置浏览器选项;

通过指定ChromeDriver的路径和选项来创建一个WebDriver对象,用它来控制

浏览器进行打开指定网页和获取网页HTML代码的操作;

通过XPath解析器Imstring()将HTML代码转换成可操作的树形结构,返回给调用

者。;

爬取汽车之家口碑数据项目实训

(二)实现流程

使用Lxml库解析网页

使用Lxml库中的tree.xpath方法解析汽车之家网页数据的车系名称、购买车型、用户名称、综合口碑得分等。

将数据保存到excel文件

使用xlswriter的Workbook、add_worksheet、activate的方法将数据保存到

excel。;

《Python人工智能技术与应用》

您可能关注的文档

文档评论(0)

人生风雪客 + 关注
实名认证
文档贡献者

如果有遇到文件不清或断篇的或者需要转换文件格式的情况请联系我,会在第一时间帮你完成完整的文档。文档如有侵权,请及时告知,本人将尽快予以删除,谢谢啦。

1亿VIP精品文档

相关文档