- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据采集技术6
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。
数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。
不但数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快,传统的数据采集方法完全无法胜任。
所以,大数据采集技术面临着许多技术挑战,一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。
大数据分类
业务数据:消费者数据、客户关系数据、库存数据、账目数据等。
行业数据:车流量数据、能耗数据、PM2.5数据等。
内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。
线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。
机器系统:智能仪表、工业设备传感器、智能设备、视频监控系统等。
互联网系统:电商系统、服务行业业务系统、政府监管系统等。
在大数据体系中,数据源与数据类型的关系如图1所示。大数据系统从传统企业系统中获取相关的业务数据。
图1数据源与数据类型的关系
机器系统产生的数据分为两大类:
通过智能仪表和传感器获取行业数据,例如,公路卡口设备获取车流量数据,智能电表获取用电量等。
通过各类监控设备获取人、动物和物体的位置和轨迹信息。
大数据采集方法分类
1.数据库采集
传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。
随着大数据时代的到来,Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。
2.系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。
高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
详细内容可参考教程《系统日志采集方法》。
。
3.网络数据采集
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。
网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。
这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。
详细内容可参考教程《网络数据采集方法》。
。
4.感知设备数据采集
感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
您可能关注的文档
最近下载
- 苏轼定风波课件PPT.ppt
- 医院智慧能源解决方案-.ppt
- 初中英语新外研版七年级上册Unit 5 Fantastic friends课文讲解(2024秋).doc
- 中国居民膳食指南2024版 .pdf VIP
- 大学军事理论课教程第二章国家安全第三节 国际战略形势.pptx
- 儿童幽门螺杆菌感染诊治专家共识.pptx VIP
- 怡安翰威特-泰康在线人力资源管理优化项目建议书_20170816.pdf VIP
- 初中英语新外研版七年级上册Unit 6课文解析(2024秋).doc
- 认真学习和领会《中国章程》-公需课:课后答案(全).docx
- 2024“学宪法、讲宪法”法治知识竞赛第八届全国中小学法治知识竞赛题库及答案.doc
文档评论(0)