59-数栖·实时开发v1.5.0-产品白皮书.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数栖·实时开发v1.5.0产品白皮书

更新时间:2020.07.30

版本:v1.5.0

1背景

随着大数据的快速发展,业务的应用场景不断丰富,在线实时计算需求逐步增多,企业开始内部的大数据建设。而离线数据的加工渐渐无法满足实时相关的业务场景,数据的价值随着时间的流逝而降低,所以事件出现后必须尽快对它们进行处理,最好事件出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。例如金融行业的异常交易行为实时监测、营销活动效果反馈、网页UV/PV流量统计等,需要及时反馈信息来辅助用户决策,由此就需要一个低延迟、可扩展、高可靠的实时大数据处理系统来解决此类实时业务场景。目前大部分企业在实时计算领域中面临着响应速度慢、计算复杂度稿、高并发等业务瓶颈。基于大数据平台的实时流计算引擎支持海量数据计算,秒级响应,高并发请求,多节点部署,从业务需求和性能要求上可以满足企业未来的长远发展。

市场分析

流数据分析市场巨大,传统厂商以及云厂商均谋求在积极开拓。

传统厂商:主要问题面临在整体云化策略和步骤上,短时间内难以将一套传统部署软件云化,并对外提供服务。

新型云厂商:对于流式处理产品化尚在起步阶段,大量高级、核心功能均未开发,云市场仍存在大量蓝海。

行业规模

全球流处理市场规模当前在40亿美元,2021年预计在137亿美元,年均增长在34.8%(引用自MarketsAndMarkets),随着大数据和IOT行业的爆发,未来预计有更多更广范围的实时数据需要借助流计算分析。

数据时效性价值

数据在线化是未来的一个趋势,数据的价值随着时间延长而价值下降,这也就体现了我们对实时性的要求越来越高,重要性越来越大。

流计算用户痛点:

从头搭建流分析系统

用户需要的是整套流计算系统,一键部署、开箱即用

负责运维流计算集群

用户需要的是整套流计算系统,做到完全托管、无需运维

处理大量技术细节

用户需要的是整套流计算系统,能够面向业务开发,降低技术门槛

传统计算集群容量固定

用户需要的是一套可弹性伸缩资源的流计算系统

手工对接上下游诸多数据系统

用户需要的是系统自动对接不同数据存储系统,能够插件化实现快速适配,可用于二次开发扩展等

黑屏化开发/运维,工具零件化

用户需要的是一套友好的人机交互界面的流计算系统,帮助解决诸多开发效率问题

学习私有/非标准化的开发接口

用户不希望学习一套私有API,担心系统灵活性和生态兼容性

实时开发主要包含项目管理、作业开发、作业运维、集群管理、数据安全隔离等核心功能模块,为用户提供了一站式实时大数据开发服务,为用户带来的价值主要体现在以下几个方面:

在线SQL编辑流式作业,降低大数据开发门槛。

支持常见的流计算框架,满足不同实时计算要求。

支持团队协作,提升开发效率。

在线运维监控,降低人工运维成本。

高扩展、高可靠的实时计算,为企业实时化精准运营提供基础。

2产品概述

2.1什么是实时开发

产品简介

实时开发是数澜提供的低延迟、高吞吐、高可靠的分布式流数据实时分析工具,通过全托管的方式让用户不用关心底层计算集群的架构原理,只需要聚焦于本身的业务逻辑,有SQL代码基础即可执行作业。目前已支持通过可视化图形拖拽的方式便能快速构建实时计算作业,以及可视化页面向导方式创建实时ETL作业。

实时开发在数栖数据价值闭环中,是实现数据资产化的重要工具之一。实时开发将企业原始数据经过数据预处理或实时分析计算,最终处理后写入到如Oracle/ES/HBase等数据库中,供其他业务系统查询搜索用,以此快速实现复杂业务场景需要。

流数据

所有数据源持续不断生成的数据,相比于离线数据,流数据规模较小。流数据的源头是源源不断的事件流,示例如下:

服务器日志数据

电商网购数据

游戏信息

社交网站信息

设备仪器数据

金融交易数据

其他数据

实时计算和批量计算区别

批量计算是一种批量、高时延、主动发起的计算任务,通常批量计算的主要过程包含

预先加载数据

提交计算任务,并且可以根据业务需要修改计算任务,再次提交任务

返回计算结果

实时计算是?种持续、低时延、事件触发的计算任务,通常实时计算的主要过程包含

提交实时计算任务

等待实时数据触发实时计算任务

持续不断对外输出计算结果

实时计算与批量计算的计算模型差异对比如下:

2.2产品定位

一站式实时大数据处理平台,数据资产化落地工具。

2.3产品受众

数据开发人员

数仓开发人员

数据分析师

BI人员

2.4核心能力

体系化实时计算系统

提供可视化流数据接入、作业开发编排能力,降低流式数据处理门槛。提供全链路的流数据处理、监控的一站式实时计算系统。

强大的实时计算能力

使用强大的流计算引擎,支持标准的FlinkSQL,支持故障自动恢复,作业资源控制,数据延迟低、吞吐量大等。同时集成

文档评论(0)

152****8691 + 关注
实名认证
文档贡献者

Sun认证程序员持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年07月07日上传了Sun认证程序员

1亿VIP精品文档

相关文档