《大数据导论》课件——第3章 数据采集技术.pptxVIP

《大数据导论》课件——第3章 数据采集技术.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1.数据采集概述数据采集

目录01采集技术概述03采集的数据类型02采集的特点04采集的范围05采集的流程

数据采集又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中的一种过程。c以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。面对如此海量的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题。如何收集有效的数据并且进行转换分析存储以及有效率的分析成为巨大的挑战。数据采集概述

FilebeatXPATH爬虫原理正则表达式HTTPFluentdSyslogFlumeBeautifulSoupLogstash相关技术和工具数据采集技术

以自动化手段为主,摆脱人工录入的方式自动化以全量采集和增量采集并存的方式,不对采集的数据进行采样采集方式采集方式多样化、内容丰富化丰富多样针对日志数据的采集,使用数据管道直达数据库实时性高传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。在依靠并行计算提升数据处理速度方面,传统的并行数据库技术追求的是高度一致性和容错性,从而难以保证其可用性和扩展性。数据采集的特点

结构化数据半结构化数据非结构化数据具有固定格式或有限长度的数据。例如:数据库,元数据等。非关系模型的、有基本固定结构模式的数据。例如:日志文件、XML文档、JSON文档、Email等。数据结构不规则或不完整,没有预定义的数据模型。例如:所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。数据采集的数据类型

数据库数据互联网内容数据系统日志数据内部业务系统数据库企业内部的各个独立的业务系统,在各类数据库中存储了大量的数据互联网对外公开内容凡是可以通过浏览器或者移动APP公开访问的互联网内容操作系统及业务系统日志自身操作系统或者自有业务系统的日常日志记录数据互联网内容数据系统日志数据网络设备日志网络设备记录的访问日志、流量日志、攻击日志等等设备状态数据物联网感知设备数据物联网的感知层设备采集的各类传感数据采集的范围

不同的数据对象,其采集流程不尽相同,这里仅介绍网页内容采集流程及系统日志的采集流程。网页爬取的采集流程系统日志的采集流程采集的流程

分析采集对象构建采集请求获取响应内容针对一个网页,需要分析其网页结构,明确要采集的对象清单,采集清单相关法律法规评估,同时确定目标数据是否在同一个页面中。通过HTTP协议向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型过滤解析内容存储采集数据保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件,如果是海量数据,则可以存储到HDFS文件系统或者HIVE数据库中。得到的内容可能是HTML文本,可以用正则表达式、BeautifulSoup、XPath进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理网页爬取的采集流程

STEP1分析日志规模及实时性,选择适合的日志采集工具。STEP2确定数据采集的输入端、输出端。STEP3配置日志采集器文件,明确需要采集的日志清单。STEP5存储日志数据,存储至数据库系统、HDFS平台。STEP4配置传输管道配置文件:输入源配置、过滤器配置、输出端配置。系统日志的采集流程

数据采集2.查看网页源码及结构

目录01网页打开流程02DOM文档对象模型03网页源码分析

网页打开流程

浏览器会把服务器响应的HTML文档解析成一个树结构,并且在此基础上定义了访问和操作HTML文档的标准。根据W3C标准我们称之为HTMLDOM(DocumentObjectModel)文档对象模型。DOM根节点末梢节点下无其它子节点存在,如Inupt、Td、H1之类的节点。03在DOM结构树中,处于中间位置的节点,此类节点内部仍然有其它节点,如Body、Div、Table节点等等。02DOM根节点,访问文档中各个标签的时候,都需要先访问该节点01末梢节点末梢节点分支节点分支节点末梢节点HTML文档中的所有内容都是节点,且有以下几个类型。整个文档是一个文档节点(document节点)每个HTML元素是元素节点HTML元素内的文本是文本节点每个HTML属性是属性

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档