《云计算与大数据》_第3章“大数据”关键技术与应用.pptxVIP

  • 0
  • 0
  • 约3.35千字
  • 约 46页
  • 2026-01-18 发布于浙江
  • 举报

《云计算与大数据》_第3章“大数据”关键技术与应用.pptx

3.1大数据技术总体框架

3.2数据采集与预处理技术

3.3大数据存储技术

3.4大数据处理技术

3.5大数据分析技术

3.6大数据可视化技术;

《云计算与大数据》第二版课件

重点大数据存储技术、处理技术

难点大数据分析技术、可视化;

云计算是新的商业模式。大数据的本质是应需求驱

动的,大数据的应用最终使云计算模式落地。

大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。

347;

业务环节;;

1.统一集成的大数据平台

可基于开源软件实现Hadoop基础工具的整合;

用户友好的管理平台,包括HDFS浏览器和类SQL查询语言等;提供服务、存储、调度和高级安全等企业级应用的功能。;

《云计算与大数据》第二版课件

2.低成本的可扩展性

支持大规模可扩展性,到PB级数据源;

支持极大的混合工具负载,各种数据类型;

简单的配置、开发和管理;

以线性成本扩展并提供一致的性能;

标准的晋通硬件。;

3.实时地分析执行

在声明或发现数据结构之前装载数据;

能以数据全载入的速度来准确更新数据;

可调度和执行复杂的几百个节点的工作流;

在刚装载的数据上,可实时执行流分析查询;能以大于每秒1GB的速率来分析数据。

8;

《云计算与大数据》第二版课件;

1.大数据来源

目前大数据的主要数据来源有三个途径:;

2.Web网络数据的爬取

爬虫的开发是利用HTTP协议读取网站上公开的数据,

因此编写爬虫首先需要粗略了解HTTP请求和网页结构。

URL的详细格式

schema://host[:port#J/path/../I?query-string][#anchor]

发送给http服务器的数据

访问资源的路径

服务器端口,HTTP默认端口是80(可省略),其他端口要指明

服务器的域名或者IP地址

底层协议(例如:http,https,ftp)

图3-2URL格式

11;

爬虫通过URL请求获取web服务器响应的数据信息,从技

术角度理解就是模拟浏览器发送请求Request,接收服务

器响应内容Response,解析响应结果后通过定位提取所

用???数据。;

2.爬虫编程

爬虫编程程序首先需要向Web服务器提出

Request请求,接收服务器响应后根据返回结

果的类型进行不同的处理,通常返回结果为

html文档,html文档需要解析出组织结构才

可以定位检索所需数据。

13;

第一首先在浏览器中浏览网站,显示要爬取的数据页面;;

引入所需库

(2)编程阶段

提出请求,

解析结果;

按照数据的结构不同,数据可以被分为结构化的大

数据、非结构化的大数据和半结构化的大数据。

16;

1.结构化数据存储

结构化数据通常是人们所熟悉的数据库中的数

据,数据库中积累的结构化数据越来越多,一

些问题显现出来,这些问题可以分为四类:;

分布式数据库系统是数据库技术和网络技术相结合的产

物。它通常使用体积较小的计算机系统,每台计算机可

单独放在一个地方,每台计算机中都有DBMS的一份完整的副本,并具有自己局部的数据库。位于不同地点的

许多计算机通过网络互相连接,共同组成一个完整的。

全局的大型数据库。

18;

《云计算与大数据》第二版课件;

2.非结构化数据存储

常见的非结构化数据包括文件、图片、视频、语音、邮件

和聊天记录等,和结构化数据相比,这些数据是未被抽象

出有价值信息的数据,需要经过二次加工才能得到其有价

值信息。

20;

由于非结构化数据具有形式多样、体量大、来

源广、维度多、有价内容密度低、分析意义大

等特点,所以要为了分析而存储,而不是为了

存储而存储。当前针对非结构化数据的特点均采用分布式文件系统方式来存储这些数据。

21;

分布式文件系统将数据存储在物理上分散的多个存

储节点上,对这些节点的资源进行统一管理和分配,并向用户提供文件系统访问接口,主要解决本地文件系统在文件大小、文件数量、打开文件数等的

限制问题。

22;

分布式文件系统的数据存储解决方案归根结底是

将大问题划分为小问题。对于很大的文件,可以

将大文件划分成多个相对较小的片段,存储在多

个数据服务器上。

23;

3.半结构化数据存储

半结构化数据是指数据中既有结构化数据,

也有非结构化数据。

24;

大数据存储对底层硬件架构和文件系统在性价比上的要求要大大高于传统技术,同时要求能够弹性扩展存储容量。但以往网络附看存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算时I/O容易成

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档