- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
完成Python网络爬虫实训
掌握Python人工智能的基础应用;
任务导入TaskMp
BI产品需要大量的高质量的数据,该商业咨询公司已拥有的数据量
无法形成较大的数据规模,现需要解决数据的来源问题。
你作为该公司商业智能团队中的Python爬虫工程师,你的主要职责是
开发和维护一个自动化的爬虫系统,从互联网上获取大量的数据。;
任务目标
知识目标
·认识网络爬虫的基本流程。
·了解Python爬虫工具库及其使用方法。
·了解Python实现网络爬虫的流程及其Python实现。
·掌握使用Selenium库实现对汽车之家网站的连接和访问。;
网络爬虫基本流程
常见Python爬虫工具库
爬取汽车之家口碑数据项目实训;
网络爬虫基本流程
搜索引擎可以帮助人们检索信息,如百度、搜狗、谷歌等,但也存在一定的局限性。
难以满足不同用户的检索目的和需求
有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾
图片、数据库、音频、视频多媒体等不同数据的发现和获取
基于关键字的检索难以支持基于语义信息的查询。;
网络爬虫(又称网页蜘蛛,网络机器人
在FOAF社区中间,更经常地被称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫是一种程序,可以自动化地从互联网上收集信息。;
网络爬虫基本流程
确定要爬取的网站和页面
首先,你需要确定要爬取的网站和页面。你可以选择从一个或多个网站开始,然后选择要爬取的页面。
发送HTTP请求
在开始爬取之前,需要向目标网站发送HTTP请求。这可以通过使用Python中的请求库(例如Requests库)来完成。你需要向目标网站发送请求,并等待它们响应。;
确定要爬取的网站和页面
首先,你需要确定要爬取的网站和页面。你可以选择从一个或多个网站开始,然后选择要爬取的页面。
发送HTTP请求
在开始爬取之前,需要向目标网站发送HTTP请求。这可以通过使用Python中的请求库(例如Requests库)来完成。你需要向目标网站发送请求,并等待它们响应。;
序号;
??号;
序号;
爬取汽车之家口碑数据项目实训
(一)实现思路
汽车之家是一个汽车行业门户网站,它提供了广
泛的汽车信息,包括汽车口碑数据。汽车之家的口碑数据是基于用户提交的评论、评分和其他数据编制的。可采用如下方式实现案例:
使用Selenium打开汽车之家网站
使用Lxml库解析网页
将数据保存到excel文件;
爬取汽车之家口碑数据项目实训
(二)实现流程
使用Selenium打开汽车之家网站,获取页面的HTML源码
创建一个ChromeOptions对象,并添加了一些参数来配置浏览器选项;
通过指定ChromeDriver的路径和选项来创建一个WebDriver对象,用它来控制
浏览器进行打开指定网页和获取网页HTML代码的操作;
通过XPath解析器Imstring()将HTML代码转换成可操作的树形结构,返回给调用
者。;
爬取汽车之家口碑数据项目实训
(二)实现流程
使用Lxml库解析网页
使用Lxml库中的tree.xpath方法解析汽车之家网页数据的车系名称、购买车型、用户名称、综合口碑得分等。
将数据保存到excel文件
使用xlswriter的Workbook、add_worksheet、activate的方法将数据保存到
excel。;
《Python人工智能技术与应用》
您可能关注的文档
- 5-土木工程科学数据分析方法课件 第四章 线性回归分析.pptx
- Python人工智能技术与应用课件:Python 数据探索性分析.pptx
- Python人工智能技术与应用课件:Python人工智能的基础应用.pptx
- Python人工智能技术与应用课件:调研分析计算机视觉技术.pptx
- Python人工智能技术与应用课件:调研分析人工智能关键技术.pptx
- Python人工智能技术与应用课件:调研分析语音识别技术.pptx
- Python人工智能技术与应用课件:调研分析自然语言处理技术.pptx
- Python人工智能技术与应用课件:机器学习技术的基础应用.pptx
- Python人工智能技术与应用课件:基于深度学习的自然语言处理技术应用.pptx
- Python人工智能技术与应用课件:利用图像分类技术进行驾驶员状态识别.pptx
- 广东省东莞市2024-2025学年八年级上学期生物期中试题(解析版).pdf
- 非遗剪纸文创产品开发经理岗位招聘考试试卷及答案.doc
- 广东省东莞市2024-2025学年高二上学期期末教学质量检查数学试题.pdf
- 体育安全理论课件图片素材.ppt
- 3.1 公民基本权利 课件-2025-2026学年道德与法治八年级下册 统编版 .pptx
- 广东省潮州市湘桥区城南实验中学等校2024-2025学年八年级上学期期中地理试题(解析版).pdf
- 大数据运维工程师岗位招聘考试试卷及答案.doc
- 广东省深圳市福田区八校2026届数学八年级第一学期期末教学质量检测模拟试题含解析.doc
- 广东省潮州市湘桥区城基初级中学2024-2025学年八年级上学期11月期中考试数学试题(解析版).pdf
- 广东省潮州市湘桥区城西中学2024-2025学年八年级上学期期中地理试题(解析版).pdf
原创力文档


文档评论(0)