- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据采集
LetsGo
认识大数据的来源
认识大数据采集技术
目录
01
02
认识大数据的来源
认识大数据采集技术
01
02
本任务将梳理大数据的来源
系统和数据类型,介绍大数据采集的基本定义及数据采集方法,并对比分析大数据采集与传统数据采集的区别。
01认识大数据的来源
大数据在冶金中的应用
山西工程职业学院
01认识大数据的来源
一、数据来源——大数据采集的首要任务
二三四
大数据在冶金中的应用
山西工程职业学院
一、业务数据
消费者数据、客户关系数据、进销存数据、账务数据等。
二、行业数据
交通流量数据、能耗数据、天气环境数据、医疗健康、科学研究数据等。
三、内容数据
应用日志、电子文档、机器数据、语音数据、视频数据、图片数据、社交媒体数据等。
四、线上行为数据
页面数据、交互数据、表单数据、会话数据、反馈数据等。
五、线下行为数据
车辆位置和轨迹数据、用户位置和轨迹数据、动物位置和轨迹数据等。
01认识大数据的来源
数据类型
大数据在冶金中的应用
山西工程职业学院
数据来源与数据类型的关系
企业系统
机器系统
互联网系统
社交系统
业务数据
行业数据
内容数据
线上行为数据
线下行为数据
01认识大数据的来源
大数据在冶金中的应用
山西工程职业学院
二、什么是大数据采集?
大数据采集是将各类数据源采集、引入企业大数据平台的过程,是大数据平
台的基础。
01认识大数据的来源
互联网系统
机器系统
大数据平台
大数据在冶金中的应用
第三方及其他
企业系统
社交系统
山西工程职业学院
采集方法:根据需求、数据源的类型、数据格式,以及数据量、数据产生速度等
因素,需要选择适当的采集方法。
山西工程职业学院
感知设备数据
设备自动采集信号、图片、视频等
采集方法-
01认识大数据的来源
分布式日志采集系统
系统日志数据
三、大数据采集方法
爬虫、开放API
网络数据
数据库
ETL工具
大数据在冶金中的应用
三、大数据采集方法
针对四种不同格式的数据,大数据采集方法主要有以下四大类。
第一类:数据库数据采集
和Oracle等来存储数据。随着
数据库也常用于数
男男男男十女
19
20
20
20
21
22
22
.
学生部000000000
外联部000000003
外联部000000004 外联部000000005
劳社部000000006、
劳社部000u0bo08 劳社部000000009
李伟
到来,edis、图ongoDB;和HBas
韩寒
毛看
李将
00006
B
片,来完成大数据采集工作。
01认识大数据的来源
企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分
0000o
大数据时代的
00003
据的采集。5
0000
00004
传统企业会使用传统的关系型数据库MySQL
e等NoSm
大数据在冶金中的应用
山西工程职业学院
系统日志数据采集主要是收集公司业务平台日常产生的大量日志数据供离线和
在线的大数据分析系统使用。
g通tem并e/n发ode日js菜keti集o-ch系at统来ozil党la/5成0大(Win数do菜T5集1,r工v:2作30G业eck般o/20日(志来系统会°
具备高可用性、高可靠性、可扩展性等特征,采用分布式架构,能够满足每秒数
百MB的日志数据采集和传输需求。
)
u
blo
业
p7
企
htt
8
三、大数据采集方法
第二类:系统日志数据采集
01认识大数据的来源
大数据在冶金中的应用
山西工程职业学院
三、大数据采集方法
第三类:感知设备数据采集
感知设备数据采集是指通过传感器、摄像头或其他
智能终端自动采集信号、图片或录像来获取数据。
企业通过开发大数据智能感知系统,实现对结构化、
半结构化和非结构化的海量数据采集,该系统需要实现智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等功能。
01认识大数据的来源
大数据在冶金中的应用
山西工程职业学院
三、大数据采集方法
第四类:网络数据采集
网络数据采集是指通过网络爬虫或网站公开API
等方式从网站上获取数据信息的过程。
企业通过开发网络爬虫系统实现大数据的采集。
网络爬虫系统可以将非结构化数据、半结构化数据从网页中提取出来,并存储在本地系统中。
01认
文档评论(0)