《大数据导论》课件——3数据采集介绍.pptxVIP

《大数据导论》课件——3数据采集介绍.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据导论

数据采集

数据采集概述

目录

数据采集又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中的一种过程。

c

以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。面对如此海量的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题。如何收集有效的数据并且进行转换分析存储以及有效率的分析成为巨大的挑战。

数据采集概述

数据采集技术

相关技术和工具

数据采集的特点

以自动化手段为主,摆脱人工录入的方式

自动化

以全量采集和增量采集并存的方式,不对采集的数据进行采样

采集方式

采集方式多样化、内容丰富化

丰富多样

针对日志数据的采集,使用数据管道直达数据库

实时性高

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。在依靠并行计算提升数据处理速度方面,传统的并行数据库技术追求的是高度一致性和容错性,从而难以保证其可用性和扩展性。

数据采集的数据类型

非关系模型的、有基本固定结构模式的数据。例如:日志文件、XML文档、JSON文档、Email等。

数据结构不规则或不完整,没有预定义的数据模型。例如:所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

采集的范围

内部业务系统数据库

企业内部的各个独立的业务系统,在各类数据库中存储了大量的数据

互联网对外公开内容

凡是可以通过浏览器或者移动APP公开访问的互联网内容

操作系统及业务系统日志

自身操作系统或者自有业务系统的日常日志记录数据

网络设备日志

网络设备记录的访问日志、流量日志、攻击日志等等设备状态数据

分布式运算框架

物联网感知设备数据

物联网的感知层设备采集的各类传感数据

采集的流程

不同的数据对象,其采集流程不尽相同,这里仅介绍网页内容采集流程及系统日志的采集流程。

网页爬取的采集流程

系统日志的采集流程

STEP1

分析日志规模及实时性,选择适合的日志采集工具。

STEP2

确定数据采集的输入端、输出端。

STEP3

配置日志采集器文件,明确需要采集的日志清单。

STEP5

存储日志数据,存储至数据库系统、HDFS平台。

STEP4

配置传输管道配置文件:输入源配置、过滤器配置、输出端配置。

谢谢观看

您可能关注的文档

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档