网站大量收购闲置独家精品文档,联系QQ:2885784924

科技行业:Apache Doris在任子行的应用实践.docx

科技行业:Apache Doris在任子行的应用实践.docx

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ApacheDoris在任子行的应用实践

孔繁艺高级研发工程师

目录

01背景介绍

02架构演进

03企业实践

04总结规划

01

背景介绍

1-1公司介绍

任子行网络技术股份有限公司成立于2000年5月,2012年4月,在深圳证券交易所创业板正式挂牌上市,是国内网络安全行业领军企业,致力于成为国内领先的“网络空间数据治理专家”。

业务涵盖网络安全、公共安全、信息安全、运营商网络资源安全、终端安全、5G数据安全、工业互联网安全等众多领域,是国家重大活动网络安全服务支撑单位,也为“一带一路”海外友好国家政府提供网络安全解决方案。

1-2早期业务架构

数据采集KafkaAlgoServerSparkStreammingHBaseElasticsearch舆情应用APP

数据采集

Kafka

AlgoServer

SparkStreamming

HBaseElasticsearch

舆情应用

APP

1-3背景介绍

无法二次分析数据孤岛数据比较分散,在地域和存储引擎层面上来看都是一个个分散的数据孤岛,数据无法共享及统一处理。

无法二次分析

数据孤岛

数据比较分散,在地域和存储引擎层面上来看都是一个个分散的数据孤岛,数据无法共享及统一处理。

业务系统架构扁平,基于ETL的明细数据,不会保留原始数据。

离线分析难度大

执行导数分析任务时,需要直接在业务系统中执行,对于大数据量的任务,严重影响ES集群的稳定性。

02

架构演进

2-1架构演进:技术选型思考

Had

Hadoop生态

Elasticsearch

?存在写入瓶颈,吞吐能力达不到预期;

?对服务器的CPU,内存及磁盘的要求都比较高;

?倒排索引导致存储成本较高,达不到降本增效的效果;

?聚合计算场景能力一般,会出现聚合不准确的情况;

?分析需要具备DSL能力,复杂场景SQL模式支持有限;

?传统数仓架构实时性得不到很好的保证。

?架构复杂度比较高,数据链路长。

?缺乏湖生态的技术储备,预研周期较长。

2-1架构演进:技术选型思考

场景

ApacheDoris

ClickHouse

查询并发

存储成本

计算能力

维护成本

社区活跃

易用性

2-1架构演进:技术选型思考

需求场景

数据分层处理,ALLINONE

高吞吐,支持实时离线导入导出

一站式分析,统一数据出口

即席分析查询能力

出色的计算能力,支持多维分析

高易用性及简易架构

ApacheDoris功能特性

1、支持Duplicate明细模型,Unique主键数据模型,Aggregate聚合数据模型,满足数仓大部分业务场景;

2、列式存储,数据拥有较高的压缩比,ODS层存储成本更低;

1、支持RoutineLoad、BrokerLoad和StreamLoad等多种内置的导数方式;

2、支持Flink、Spark、Datax、Kafka等源;

3、支持HDFS、S3、本地文件读取与写入;

1、出色的联邦分析能力,支持大部分主流数据湖、数据库的连接访问;

1、支持高并发,Unique表在高并发点查场景下可达数万QPS;

2、不仅支持主键点查,在条件与范围查询场景下表现同样出色;

1、支持向量计算,聚合查询低延迟;

2、支持大部分Upsert操作,行更新,列更新,可满足用户信息,标签画像更新等场景;

3、大表Join支持度较好;

1、采用MySQL,支持标准SQL协议,使用成本低;

2、只有FE与BE两个进程,不需要引入外部组件;

3、DorisManage、X2Doris等丰富的周边工具;

4、社区活跃,社区支持度高,文档非常详细;

2-2架构演进:数仓架构

数据应用数据仓库数据源MySQLFileHbaseElasticsearchOpenAPIDWDODSDWSADS即席查询标签画像自助报表采集数据调度引擎/计算引擎关联分析DolphinSchedulerApacheFlink数据摄入

数据应用

数据仓库

数据源

MySQL

File

Hbase

Elasticsearch

OpenAPI

DWD

ODS

DW

您可能关注的文档

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档