希嘉数据中台体系05数据计算篇.docxVIP

下载本文档

14
0
约2.32千字
约 8页
2021-08-09 发布于山东
举报
版权申诉

希嘉数据中台体系05数据计算篇.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

希嘉数据中台系统05数据计算篇范文希嘉数据中台系统05数据计算篇范文 PAGE / NUMPAGES 希嘉数据中台系统05数据计算篇范文数据中台之数据计算篇数据直接开放合用的场景上一篇，我们谈到数据中台的数据开放模式，接下来环绕数据开放的更深层次需求 -- 数据计算来进行。如上图所示，不论是线下的数据开放（ ETL 接口、文件）仍是线上的数据开放（ API 接口），关于数据体量都是有要求的，一般一次传输的数据量会控制在十万级以下，数据量再大则会出现传输的性能瓶颈造成应用接见的延时。可是，目前大数据的背景下，高校新归入了近似传感器、机器设施的数据源，而这些数据体量比传统的业务系统要大的多，比方某学校防火墙一天产生的数据在 500G。与此同时，学校又需要对这些数据进行统计（比方每 5-10 分钟刷新一次当日的会话接见排名），这样就对数据开放提出了更高的要求，不单要求开放基础数据，关于这些应用终端没法在短期内处理好的数据，同时要求供应结果数据，这就波及到数据计算模块了。希嘉数据中台系统中的数据计算模块就是针对这个实质需求，应运而生。数据计算的使用途景如上图所示，数据计算系统是为认识决大概量数据直接对外供应面对的性能问题，而选择把公共数据计算的部分整合到数据中台，利用中台基层的计算功能来达成。比如上图中大批的过程数据，在目前一些业务场景中愈来愈开始发挥其核心价值，但直接供应数据传输的成本特别高，同时也会额外造成巨量的储存成本，因此需要经过公共数据计算模块来早先达成一部分场景的预办理，核心是减小对外数据供应的体量，提升数据使用的效率。典型使用途景举例：如上图中的红框部分，某用户想鉴于防火墙流量数据 (3000W+/ 小时 ) 和上网认证数据 (2W+/ 天 ) 来定位某些终端用户行为能否异样，那么第一就需要依据规则关系这两类数据。过程以下： a). 鉴于上网认证查问 2W 条记录的 IP 地点、上线时间、下线时间、认证账号 b). 将上边获得上网认证的 IP 地点、上线时间、下线时间作为关系条件，先鉴于 1 小时的防火墙流量数据（ 3000W）进行关系，其关系条件以下： 1). 上网认证 .IP 地点 = 防火墙流量数据 .IP 地点 2). 上网认证 . 上线时间防火墙流量数据 . 记录产生时间上网认证 . 下线时间 c). 将知足步骤 b) 关系条件的防火墙流量数据与上网认证的账号进行关系和标志，归并成具体用户的流量行为数据 ( 防火墙初始只供应鉴于 ip 地点的接见记录，大多数学校是动向的 DHCP，同一个 IP 在不一样的时间段分派给的终端用户是不一致的 ) 以上边 2W的认证数据与 3000W 的流量数据进行一个简单的范围关系，实质在 Oracle 数据库里面测试的履行时间在 100 秒左右，相当于要履行 2W次对 3000W 条记录的扫描和匹配。假如把数据量各自扩大 10 倍，变为 20W 认证数据与 3 亿条流量数据的关系，则在数据库里面履行的时间理论上是 10000 秒(靠近 3 小时 )。上边还不过大数据计算中比较简单和体量相对较小的场景，假如关于上边的近似数据要求供应数据开放和共享，不论怎样都不行能将原始数据经过 ETL 或许 API 接口的方式供应数据，传输体量实在太大，因此一定要把计算过程鉴于大数据基层的计算能力，在当地达成，最后将结果对外输出。数据计算层的整体架构设计如上图所示，紫色模块即为数据计算在整个数据中台系统中的地点，其核心是供应鉴于数据储存层的计算能力，兼容主流的储存容器（如 Oracle 、 MySQL、 HDFS、 Hive 等）。在希嘉的数据中台系统中，选择采纳 Spark 作为数据计算的核心组件，联合 Hadoop 集群的散布式储存和计算能力，解决海量数据运算的场景。 Spark 的散布式计算原理 Spark 是目前 Hadoop 大数据系统中最为成熟的计算组件，能够兼容绝大多数的数据源，与 HDFS搭配天然互补，可供应 Java ， Scala ， Python ，简单迅速的编写并行的应用办理大数据量。希嘉对 Spark 模块进行深度整合，供应了鉴于业务流程的数据计算服务，使得高校能够将数据使用的流程管理与大数据基层计算过程进行交融，大幅度降低在数据开放过程中使用数据计算的门槛。希嘉中台系统关