- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
希嘉数据中台系统05数据计算篇范文
希嘉数据中台系统05数据计算篇范文
PAGE / NUMPAGES
希嘉数据中台系统05数据计算篇范文
数据中台之数据计算篇
数据直接开放合用的场景
上一篇,我们谈到数据中台的数据开放模式,接下来环绕数据开放的更深层次需求 --
数据计算来进行。
如上图所示,不论是线下的数据开放( ETL 接口、文件)仍是线上的数据开放( API 接
口),关于数据体量都是有要求的,一般一次传输的数据量会控制在十万级以下,数据量再大则会出现传输的性能瓶颈造成应用接见的延时。
可是, 目前大数据的背景下,高校新归入了近似传感器、 机器设施的数据源,而这些数
据体量比传统的业务系统要大的多, 比方某学校防火墙一天产生的数据在 500G。与此同时,
学校又需要对这些数据进行统计 (比方每 5-10 分钟刷新一次当日的会话接见排名) ,这样就
对数据开放提出了更高的要求, 不单要求开放基础数据, 关于这些应用终端没法在短期内处
理好的数据,同时要求供应结果数据,这就波及到数据计算模块了。
希嘉数据中台系统中的数据计算模块就是针对这个实质需求,应运而生。
数据计算的使用途景
如上图所示, 数据计算系统是为认识决大概量数据直接对外供应面对的性能问题, 而选
择把公共数据计算的部分整合到数据中台,利用中台基层的计算功能来达成。
比如上图中大批的过程数据, 在目前一些业务场景中愈来愈开始发挥其核心价值, 但直
接供应数据传输的成本特别高, 同时也会额外造成巨量的储存成本, 因此需要经过公共数据
计算模块来早先达成一部分场景的预办理, 核心是减小对外数据供应的体量, 提升数据使用
的效率。
典型使用途景
举例:如上图中的红框部分,某用户想鉴于防火墙流量数据
(3000W+/
小时
)
和上网认证
数据
(2W+/
天
)
来定位某些终端用户行为能否异样,
那么第一就需要依据规则关系这两类数据。
过程以下:
a). 鉴于上网认证查问 2W 条记录的 IP 地点、上线时间、下线时间、认证账号
b).
将上边获得上网认证的
IP
地点、 上线时间、
下线时间作为关系条件,
先鉴于
1 小时的防
火墙流量数据(
3000W)进行关系,其关系条件以下:
1).
上网认证
.IP
地点
=
防火墙流量数据
.IP
地点
2).
上网认证
.
上线时间
防火墙流量数据
.
记录产生时间
上网认证
.
下线时间
c).
将知足步骤
b) 关系条件的防火墙流量数据与上网认证的账号进行关系和标志,
归并成具
体用户的流量行为数据 ( 防火墙初始只供应鉴于 ip 地点的接见记录,大多数学校是动向的
DHCP,同一个 IP 在不一样的时间段分派给的终端用户是不一致的 )
以上边 2W的认证数据与 3000W 的流量数据进行一个简单的范围关系,实质在 Oracle
数据库里面测试的履行时间在 100 秒左右,相当于要履行 2W次对 3000W 条记录的扫描和匹
配。假如把数据量各自扩大 10 倍,变为 20W 认证数据与 3 亿条流量数据的关系,则在数据
库里面履行的时间理论上是 10000 秒(靠近 3 小时 )。
上边还不过大数据计算中比较简单和体量相对较小的场景, 假如关于上边的近似数据要
求供应数据开放和共享, 不论怎样都不行能将原始数据经过 ETL 或许 API 接口的方式供应数
据,传输体量实在太大,因此一定要把计算过程鉴于大数据基层的计算能力,在当地达成,
最后将结果对外输出。
数据计算层的整体架构设计
如上图所示,
紫色模块即为数据计算在整个数据中台系统中的地点,
其核心是供应鉴于
数据储存层的计算能力,兼容主流的储存容器(如
Oracle
、 MySQL、
HDFS、
Hive
等)。
在希嘉的数据中台系统中,选择采纳
Spark
作为数据计算的核心组件,联合
Hadoop
集
群的散布式储存和计算能力,解决海量数据运算的场景。
Spark
的散布式计算原理
Spark
是目前
Hadoop
大数据系统中最为成熟的计算组件,
能够兼容绝大多数的数据源,
与 HDFS搭配天然互补,可供应
Java
, Scala
,
Python
,简单迅速的编写并行的应用办理大
数据量。
希嘉对
Spark
模块进行深度整合,
供应了鉴于业务流程的数据计算服务,
使得高校能够
将数据使用的流程管理与大数据基层计算过程进行交融,
大幅度降低在数据开放过程中使用
数据计算的门槛。
希嘉中台系统关
您可能关注的文档
最近下载
- ZXR10 M6000电信级路由器硬件手册.docx VIP
- 《输液导管相关静脉血栓形成防治中国专家共识》解读PPT课件.pptx VIP
- 高中英语_Being funny without saying a word教学课件设计.ppt
- 2024版育婴师培训全套课件完整版.docx VIP
- 子网掩码相关教学 子网掩码快速算法.doc VIP
- 什么什么踏地四字成语.docx VIP
- 力士乐卷扬减速机制动器安装拆解图文.pdf VIP
- 新能源汽车充电系统检修:车载充电机的认知与检修PPT教学课件.pptx
- 2025年度食品安全风险日管控、周排查、月调度记录表.pdf VIP
- (新版)消防设施操作员(初级)消防设施操作-考试题库(含答案).docx VIP
文档评论(0)