- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
5.2数据的采集
EDUCATION
目
录
新课导入
数据的来源?
互联网、物联网
采集数据首先要明确数据应用项目的需求,围绕选定的项目主题,制定数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。
01
数据采集的方法和工具
5.2.1数据采集的方法和工具
系统日志采集法
系统日志是记录系统中硬件、软件和系统问题的信息文件。
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
操作系统日志
应用程序日志
安全日志
网络数据采集法
指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
互联网、物联网
网络爬虫是什么?
网络爬虫的起始点是什么?
网络爬虫的作用。
可以自动采集网络数据的程序代码
一个或若干个网页的URL
(统一资源定位符)
通过爬虫可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。
使用Python语言的第三方库来实现爬虫编写
requests库——获取网页信息
bs4库(beautifulsoup)——解析HTML页面
xlwt库——调用Excel模块,将获取的有用信息写入表格文件保存
NumPy库——构建科学计算最基础的软件库
Scipy库——工程和科学软件库
Pandas——主要用于快速简单的数据操作、聚合和可视化呈现
Matplotlib——Python绘图库
importmodule
关键字模块名
frommoduleimportname
关键字模块名关键字方法名
importNumPy
关键字模块名
fromNumPyimportsqrt
关键字模块名关键字方法名
其他数据采集法
传感器
02
数据的存储与保护
一种是把数据存在本地内部
把数据放在第三方公共或私有的“云端”存储
数据存储的方式
数据的存储
本地内部存储
第三方云存储
存储卡
本地电脑硬盘
光盘
供应商
用户
管理
运营
维护
访问权限
存储空间
存储数据
数据的保护
保护数据不被破坏、更改、泄露或丢失
数据的安全保护、数据的隐私保护
数据的安全保护
数据安全保护指数据不被破坏、更改、泄露或丢失。
1.安装杀毒软件、防火墙
2.拷贝、备份、复制、镜像、持续备份等技术
3.加密技术:
对称式加密(加密和解密用的是同一个密钥)
非对称式加密(加密和解密用是两个不同的密钥,必须配对使用)
只能防备数据安全隐患
更为彻底、有效的方法
隐私泄露的途径
数据的隐私保护
隐私泄露的
解决办法
1
2
3
技术手段
提高自身保护意识
对数据使用者进行道德和法律上的约束
1
2
3
数据收集时——数据精度处理
数据共享时——访问控制
数据发布时——人工加扰
4
数据分析时——数据匿名处理
数据的隐私保护:
数据的隐私保护
1.技术手段
常用的隐私保护手段有:
①数据收集——进行数据精度处理;
②数据共享——进行访问控制;
③数据发布——进行人工加扰;
④数据分析——进行数据匿名处理等。
2.提高隐私保护意识
3.对数据使用者进行道德或法律约束
巩固练习
1.随着技术的发展,数据采集的手段日益丰富。下列不属于数据采集的是()
A.用手机播放音乐
B.疫情防控专用通道测体温
C.潜水器潜入海底进行取样,提取样本特征
D.汽车尾气检测系统获取实时数据
2、无论对于个人还是企业,数据安全隐患无处不在,一旦数据泄露或丢失,就有可能造成巨大的损失。下面说法不正确的是()
A.对于个人而言,在硬盘上做好重要文件的备份就能确保数据安全
B.《中华人民共和国网络安全法》的实行,说明国家对于网络数据安全越来越重视
C.使用手机中的定位、导航、移动支付,都有可能造成隐私的泄露
D.对于企业而言,可以利用复制、镜像、持续备份等技术做好数据保护
A
A
巩固练习
3、下列选项中,均属于数据采集工具的是()
A.网络爬虫、传感器
B.问卷、报纸
C.移动App、杂志
D.摄像机、电视机
4、我们常用来存储数据的存储进制有很多种,但是()仅能按顺序文件方式存取。
A.磁带 B.硬盘 C.U盘 D.光盘
5、人口普查时,社区工作人员逐户上门登记人口信息的过程主要属于()
A.信息的传递 B.信息的处理 C.信息的采集 D.信息的存储
A
C
A
巩固练习
6.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的()开始获取。
A.
您可能关注的文档
- 第1课 中国古代政治制度的形成与发展 课件 高二上学期历史统编版选择性必修1国家制度与社会治理.pptx
- 4.1.3.2 卤族元素 课件 高一上学期化学人教版必修第一册.pptx
- 第15课 两次鸦片战争 高中历史中外历史纲要上册课件(统编版).pptx
- 第1课 中华文明的起源与早期国家 课件-高一上学期统编版必修中外历史纲要上.pptx
- 9.3 极地地区(第1课时)(课件)七年级下册地理课件(粤人版2024).pptx
- 4.1.3 原子结构与元素的性质 课件 高一上学期化学人教版必修第一册 (1).pptx
- 8.1 自然资源的开发利用 第3课时——煤、石油和天然气的综合利用 课件-高一下学期化学人教版必修第二册.pptx
- 3.3组建小型无线网络课件-粤教版(2019)高中信息技术必修二.pptx
- 第05课 三国两晋南北朝的政权更迭与民族交融 高中历史中外历史纲要上册课件(统编版).pptx
- 第二章 课时7 地球自转特征与航天基地区位-高三地理一轮复习.pptx
- 6.用选择的设备记录旅途见闻(教学设计)-三年级信息科技全一册(河北大学版2024).docx
- 8.制订规划方案(教学设计)-三年级信息科技全一册(河北大学版2024).docx
- 10.参观路线的设计及出行准备(教学设计)-三年级信息科技全一册(河北大学版2024).docx
- 《喝水有学问》(教案)地质版(2024)体育一年级全一册.docx
- 9.网上查找资料(教学设计)-三年级信息科技全一册(河北大学版2024).docx
- 《各式各样的牙刷》(教案)冀美版(2024)美术一年级下册.docx
- 《泥巴真听话》(教案)冀美版(2024)美术一年级下册.docx
- 《我是小小代言人》(教案)冀美版(2024)美术一年级上册.docx
- 剪花边(教案)浙美版(2024)美术一年级下册.docx
- 《你的睡眠充足吗》(教案)地质版(2024)体育一年级全一册.docx
原创力文档


文档评论(0)