数据新闻与信息可视化 课件 第3、4章 网络数据获取、 数据清理.pptx

数据新闻与信息可视化 课件 第3、4章 网络数据获取、 数据清理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据新闻与信息可视化第三章网络数据获取01.认识网页结构目录02.网络高级搜索CONTENT03.使用工具软件抓取网络数据04.使用Python编程语言抓取网络数据第一节认识网页结构1.1调阅源代码1.2探索源代码1.3认识源代码1.1调阅源代码网页是构成网站的基本要素,前端网页呈现与后端数据存储共同构成了网站。网页通常由超文本标记语言创建。HTML语言搭建起网页基本结构,确立了网页的“骨架”。CSS级联样式表定义了网页的样式,也即装饰了网页的“皮肤”。JavaScript脚本规定了网页的行为方式,也即构建了网页的“肌肉”。1.1调阅源代码1.2探索源代码1.3认识源代码表HTML常用标签及含义第二节网络高级搜索2.1理解网址结构2.2高级搜索命令2.1理解网址结构[协议]://[服务器地址]:[端口]/[文件路径]?[查询](端口或不显示)图网址结构2.2高级搜索命令加号(+)逻辑“与”或“并”,连接两个及以上搜索条件。减号(-)逻辑“非”,排除特定搜索条件。标题(intitle)对网页标题栏进行搜索。网站(site)将搜索范围限定于特定网站。网址(inurl)专题内容搜索。文件类型(filetype)搜索特定类型的文件。精确匹配(“”)精确匹配搜索内容。第三节使用工具软件抓取网络数据数据抓取工具表网络数据抓取工具介绍可在Windows系统和Mac系统中使用。详情页采集通过读取网页源代码,可以获知数据的存储路径,进而通过不同方式获取网络数据。HTML语言搭建起网页基本结构,确立了网页的“骨架”CSS级联样式表定义了网页的样式,也即装饰了网页的“皮肤”JavaScript脚本规定了网页的行为方式,也即构建了网页的“肌肉”。第四节使用Python编程语言抓取网络数据4.1Python语言基础简介4.2使用Selenium库抓取数据4.3使用BeautifulSoup库进行抓取4.4向浏览器发送信息获取特定数据4.1Python语言基础简介Python运行环境4.1Python语言基础简介Python书写规范4.1Python语言基础简介Python语法规则基本概念输出:内置函数print()。变量:为数据命名。表达式:由运算符连接起不同类型的数据。语句:完整地执行了一项任务的代码。4.1Python语言基础简介通过缩进来控制代码模块4.1Python语言基础简介Python语法规则数据类型数值与布尔型:前者表示数值,后者有True和False两个值。字符串:由任意字符构成,用引号标识。元组:有序的、不可更改的数据序列,使用小括号“()”创建。列表:有序的,可更改的数据序列,使用“[]”创建。字典:映射类型的数据,使用“{}”创建。4.1Python语言基础简介Python语法规则函数、模块和库函数:可以重复使用,用来实现一定功能的代码段。模块:依据一定逻辑将代码组织在一起。库(也称包):具有相同功能的模块的集合。4.1Python语言基础简介Python语法规则执行条件命令执行循环命令4.2使用Selenium库抓取数据4.3使用BeautifulSoup库抓取数据4.4向浏览器发送信息获取特定数据driver.find_element(By.CLASS_NAME,‘J-search-input’).send_keys(‘小龙虾’)drive.find_element(By.CLASS_NAME,J-all-btn).click()THANKS谢谢观看数据新闻与信息可视化第四章数据清理01.数据清理的必要性与分类02.释放PDF文件中的数据目录03.使用EXCEL清理数据CONTENT04.使用OpenRefine清理数据05.使用Python编程清理数据第一节数据清理的必要性与分类1.1数据清理的必要性1.2文件格式与数据类型1.3数据清理的分类1.4数据清理日志1.1数据清理的必要性干净的数据输入是高质量数据分析的前提1.2文件格式与数据类型1.2文件格式与数据类型1.3数据清理的分类缺失数据不完整的数据。可进行数据补全或标记为NULL。重复数据序号不同的数据,但其属性和值都一致,很可能是重复数据。可采用合并或清除的方法处理。错误数据无效数据,格式不正确、包含非正规字符或逻辑错误等。应依据错误类型进行人工清理。1.4数据清理日志样例2022年4月12日(1)执行命令VALUE.REPLACE(“/”,“”)附上截图原始数据中有多余字符“/”,使用REPLACE函数将“/”去掉。(2)执行命令,

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档