Python人工智能技术与应用 PPT课件 5.【课件】2-2 完成 Python 网络爬虫实训.pptx

下载文档

2
0
约3.86千字
约 16页
2024-07-18 发布于山东
举报
版权申诉
保障服务

Python人工智能技术与应用 PPT课件 5.【课件】2-2 完成 Python 网络爬虫实训.pptx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《Python人工智能技术与应用》能力模块二掌握Python人工智能的基础应用任务二完成Python网络爬虫实训

TaskImport任务导入BI产品需要大量的高质量的数据，该商业咨询公司已拥有的数据量无法形成较大的数据规模，现需要解决数据的来源问题。你作为该公司商业智能团队中的Python爬虫工程师，你的主要职责是开发和维护一个自动化的爬虫系统，从互联网上获取大量的数据。

素养目标引导问题的过程中，培养学生形成勤于思考的能力获得分析解决问题以及多元化思考解决问题的方法，形成创新意识。TaskObject任务目标知识目标认识网络爬虫的基本流程。了解Python爬虫工具库及其使用方法。了解Python实现网络爬虫的流程及其Python实现。掌握使用Selenium库实现对汽车之家网站的连接和访问。技能目标掌握使用Lxml库实现对汽车之家网站的解析。掌握使用xlswriter实现对爬取后的汽车之家口碑数据进行保存。能够思考确定Python爬取汽车之家口碑数据的整体思路，培养开拓进取的职业态度。

新授

CONTENTS目录网络爬虫基本流程01常见Python爬虫工具库02爬取汽车之家口碑数据项目实训03

01难以满足不同用户的检索目的和需求有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾图片、数据库、音频、视频多媒体等不同数据的发现和获取基于关键字的检索难以支持基于语义信息的查询。网络爬虫基本流程搜索引擎可以帮助人们检索信息，如百度、搜狗、谷歌等，但也存在一定的局限性。

01网络爬虫基本流程网络爬虫（又称网页蜘蛛，网络机器人，在FOAF社区中间，更经常地被称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫是一种程序，可以自动化地从互联网上收集信息。确定要爬取的网站和页面发送HTTP请求解析HTML内容提取数据存储数据循环迭代网络爬虫概念网络爬虫基本流程

01网络爬虫基本流程当目标网站响应请求时，它会返回一个HTML文档。你需要解析HTML文档，以提取你感兴趣的信息。Python中常用的解析库有BeautifulSoup和Ixml等。解析HTML内容一旦你解析了HTML内容，你需要提取你需要的数据。你可以使用Pvthon中的正则表达式或解析库提供的工具来查找和提取信息。提取数据首先，你需要确定要爬取的网站和页面。你可以选择从一个或多个网站开始，然后选择要爬取的页面。确定要爬取的网站和页面在开始爬取之前,需要向目标网站发送HTTP请求。这可以通过使用Python中的请求库(例如Requests库)来完成。你需要向目标网站发送请求，并等待它们响应。发送HTTP请求

01网络爬虫基本流程首先，你需要确定要爬取的网站和页面。你可以选择从一个或多个网站开始，然后选择要爬取的页面。确定要爬取的网站和页面在开始爬取之前,需要向目标网站发送HTTP请求。这可以通过使用Python中的请求库(例如Requests库)来完成。你需要向目标网站发送请求，并等待它们响应。发送HTTP请求网络爬虫的基本流程示意图

常见Python爬虫工具库02（一）Selenium库序号描述命令1创建一个Chrome浏览器对象driver=webdriver.Chrome()2打开指定的网页driver.get(url)3查找一个网页元素，通过XPath定位element=driver.find_element_by_xpath(xpath)4查找一个网页元素，通过CSS选择器定位element=driver.find_element_by_css_selector(css_selector)5在网页元素中输入文本element.send_keys(keys)6单击网页元素element.click()7在浏览器中执行JavaScript代码driver.execute_script(script)8获取当前网页源代码driver.page_source9返回上一个网页driver.back()Python的Selenium库是一个用于自动化测试和网页爬取的工具，它可以模拟用户在浏览器中的操作，如打开网页、填写表单、点击按钮等，可以对JavaScript生成的内容进行操作，并获取网页中的数据。右表为Selenium库操作流程。

常见Python爬虫工具库02（二）Lxml库Python的Lxml库是一个用于处理XML和HTML文档的Python库，它是基于C实现的，具有高性能和高效率的特点。Lxml库提供了ElementTreeAPI的增强版，支持XPath和CSS选择器等高级功能，