- 1、本文档共185页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
集团大数据平台技术要求实现整体方案
产品架构
图8-1 TDH产品架构
TDH架构采用的是单一纯Hadoop式的数据平台架构,在结构上分为实时处理以及海量数据存储分析集群。大数据统一平台既可以处理结构化的数据,实现数据整合平台、历史数据平台的处理,也可以处理非结构化、半结构化的数据,实现大数据平台、外部数据采集平台的支撑,同时,基于平台提供的实时流处理能力,可以满足准实时数据服务平台的需求。配合平台内工具组件和应用开发,数据服务总线、统一调度系统、数据管控平台的功能需求。
数据接入层
系统接入数据方式多样化,包括关系型数据库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求,数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop、DataStage等ETL工具全量或定时增量抽取同步关系型数据库,也可采用文本文件方式批量导入;自带HUE作为数据抽取管理工具,提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS的功能。
数据存储层
在数据存储层中,底层为统一分布式存储HDFS,HDFS采用三份副本策略保证数据的安全性以及可靠性。然而,随着时间的推移,很少被使用到的归档历史数据会越来越多,占用大量的HDFS存储空间,HDFS通过Erasure Code技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。在HDFS之上提供分布式NoSQL(Not Only SQL)实时数据库 Hyperbase为高并发检索分析以及事务支持提供平台级支撑。Hyperbase通过多种索引支持海量数据多维度的秒级检索查询,包括全局索引,全文索引,组合索引等,另外Hyperbase与Titan相结合支持图数据库。在平台存储层,支持各类结构化、半结构化、非结构化海量数据的低成本存储,为超长时间的海量历史数据存储和使用提供基础支撑。并通过Hyperbase对于海量数据高并发低延时的检索能力,很好的支持移动互联业务场景的数据访问需求。
数据计算层
在数据存储层之上的数据计算层通过YARN提供统一的资源管理调度,可以动态创建和销毁集群,灵活部署业务。采用Inceptor内存计算分析能力为贵州银行的各个应用提供高效的分析挖掘能力。在Inceptor中,通过独立的分布式内存列式存储Holodesk,解决开源Spark的稳定性问题以及进一步提供交互式分析能力,同时为了降低平台建设成本与提高平台内存分析数据量,分布式内存存储可建在内存或者固态硬盘SSD上。利用Spark高速内存迭代计算的优势,通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库,为大数据平台提供高效的数据挖掘能力。同时,保留传统的MapReduce计算框架,完整大数据平台对于各个计算框架的支持。此外,实时流数据通过Spark Streaming支持实时数据的低延时高吞吐的处理。通过消息队列Kafka消费实时数据流,做到数据不丢不重,基于Spark Streaming提供类似于批处理系统的计算能力、健壮性、扩展性的同时,将数据时延降低至秒级,适用于各种实时数据的复杂处理业务场景。
数据分析层
在数据分析层,通过Inceptor对存储在HDFS、Hyperbase以及分布内存缓存Holodesk上的数据进行统计检索分析,并为数据服务层提供JDBC/ODBC接口,同时为了降低数据平台学习与使用成本,方便传统业务迁移,Inceptor兼容支持SQL2003标准以及PL/SQL。对于数据挖掘,在分析层,提供可视化的挖掘建模设计工具RStudio,使用R语言进行交互式数据挖掘与统计分析,挖掘数据深度规律并建立数据模型。同时支持Mahout,利用Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘。
数据应用层
在数据服务层,通过数据存储层、计算层以及分析层提供的接口,封装后提供多种数据服务能力,包括海量数据高并发检索查询,即席查询,海量数据交互式统计分析,数据可视化,实时数据比对异常检测告警,实时数据基于滑动时间窗口统计分析,海量数据统计挖掘以及数据平台中数据交换等。通过大数据平台对外提供的各种服务,在其之上实现贵州银行各类应用,包括管理驾驶舱、统一报表平台、数据分析、实时数据处理等。
数据管理与系统安全
此外,大数据平台通过安全通信协议和角色权限管理功能,在软件层面提供通信安全和数据访问安全的双重保障,有效的对各个部门以及下级单位的数据访问进行控制和安全管理,实现数据平台4A级(认证Authentication、账号Account、授权Authorization、审
您可能关注的文档
最近下载
- DB5301_T 90-2023 工程建设项目联合测绘 技术规范.pdf VIP
- 2023年湖南岳阳市第一中学高一上入学考试数学模拟试卷附答案解析.pdf VIP
- 建立良好师生关系促进教育教学.pptx
- 2025年辅警招聘考试公安基础知识(情景分析题)模拟试卷3(题后含答案及解析.pdf VIP
- 中建一局首都体育学院项目临电方案(终)(28P)2.pdf VIP
- 无领导小组讨论几个派别、无领导小组讨论角色、无领导小组讨论面试十大精准切点、无领导小组讨论答题技巧、无领导小组讨论的加分项.docx VIP
- 《无人机基础》课件.pptx VIP
- 工程增项申请表格.docx VIP
- 2021利达JB-QG-LD988EL JB-QT-LD988EL 火灾报警控制器 消防联动控制器调试手册.docx VIP
- 实验动物学发展的趋势.ppt VIP
文档评论(0)