- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
上汽数据湖4.0
“数据湖”构建上汽集团数据中台
数据湖|PART1
数据湖因运而生
大数据平台待建
大数据平台待建
看到的现象
数据量大
数据量大
数据库计算能力不足
数据库计算能力不足
业务数据孤岛
业务数据孤岛
表面原因
人力不足
人力不足
成本过高
成本过高
技术沉淀不足
技术沉淀不足
过渡原因
个性化平台
个性化平台
实时海量存储计算
实时海量存储计算
根本原因
2016.04
萌生V0.1
2017.06
产品V1.0
2018.06
沙盒V3.0
2019.12
未来Vx.x
2016.12
沉淀V0.2
2017.12
成熟V2.0
2018.12
品牌V4.0
数据湖
高性能查询实时大数据金融级数据加密便捷科学计算应用
高性能查询
实时大数据
金融级数据加密
数据库数据实时接入异构数据库数据融合每秒百万级数据接入
数据备份及容灾功能数据快照及数据回溯百亿级数据亚秒级查询
单位格级别统一权限管理
金融级自动化数据加密敏感数据脱敏
海量数据机器学习
数据挖掘系统
海量小文件存储及检索
数据湖管理模块
数据治理模块
科学家工作台
JupyterIDE和运行环境
数据同步链路
SAICDATALINK
SAICDataLink是上汽集团自主研发的数据同步链路,适配上汽数据湖平台。完成异构数据库数据实时同步到上汽数据湖的工作,具有以下特点:
1.支持Oracle,DB2,MySQL,MongoDB,PostgreSQL等数据库
2.异步非阻塞方式读取数据库Log文件,对数据库不构成压力
3.实时同步:2秒数据延迟(局域网)
4.数据存储,传输加密:数据存储使用AES,3DES加密,数据传输使用HTTPS加密
5.支持局域网/广域网数据同步
6.强数据一致性校验,保证在网络条件差的情况下不丢失一条数据
7.无状态链路设计,动态扩容,基于容器的自动运维
8.Hock方式提供数据同步链路开发接口,支持用户自定义Lua脚本扩展数据链路功能
SAICDataLink
SAICDataLink
数据湖经济型分析数据湖4.0
数据湖经济型分析
数据湖4.0
数据湖3.0
报价
单价(每TB)
OracleOGG
4万/Core
1000万左右(200链路)
Oracleexadata
1000~2000万100TB
10万/TB
SAPHANA
320万256G
1280万/TB
Teradata
300万30~40T
100万/TB
?据了解某大型企业Oracleexadata和SAPHANA,各花了400万和320万。
?数据湖建设成本,单台机器40T,目前市面上这类机器的价格大概在10万左右,软件成本按照1年算,平均10个成员(100万/人/年)大致1000万。
?按照10套软件的输出平摊,100万(开发成本)+(10万硬件成本/40T(存储容量))=100万+0.25万/TB
节省70%以上建设成本?实施成本,目前实施人员(外包)成本大致为70万/人/年,按一个季度的实施成本为17.5万元。
节省70%以上建设成本
?企业上线数据湖的预估成本(按照10套数据湖产品输出计算):
100万+0.25万/TB+17.5万
上汽数据湖的用户
tivityGuidebigdatapr
tivity
G
感谢观看
感谢观看|THANKYOU
Guidebigdataproductivity
文档评论(0)