- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据处理平台设计方案方案
大数据基础平台
架构设计
SDC Hadoop大数据基础平台集工作台、工作流开发环境、任务调度、数据管理、数据检索、集群运维管理系统和应用门户为一体,为用户提供基于大数据的基础解决方案,全面满足不同行业、不同人群对大数据的个性化要求。其架构设计如下图:
运维管理(SDC Console):SDC Console是大数据运维管理系统,为SDC Hadoop供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理等。
SDC Hadoop集成开发工具:提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。
HDFS: Hadoop分布式文件系统(Hadoop Distributed File System) ,提供高吞吐量的数据访问,适合大规模数据集方面的应用。
Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。
HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。
Elasticsearch:提供了一个分布式多用户能力的全文搜索引擎。
Parquet:面向分析型业务的列式存储格式。
YARN 资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。
Tachyon:分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。
Redis:提供基于内存的高性能分布式K-V缓存系统。
MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。
Spark:基于内存进行计算的分布式计算框架。
Strom:提供分布式、高容错的实时计算系统。
Hive:建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。
Impala:提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Spark Streaming:建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。
Kylin:支持在超大数据集上进行秒级别的SQL及OLAP查询。
功能模块
大数据运维管理
大数据运维管理为大数据存储供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、统一监控告警、统一用户权限管理、日志查询、服务管理等。
服务管理
提供服务管理,支持对各项资源及服务进行创建、删除、启停、重启、配置、升级、部署、维护等操作:
统一监控告警
提供集群监控功能,集成大数据服务、可视化服务、数据挖掘服务等,并对服务器CPU、服务资源、服务状态(警告、错误、隐患)进行实时监控,并以图表形式呈现。支持异常邮件报警,便于用户及时发现问题并处理:
日志查询
提供日志分析友好的Web界面,可以帮助用户汇总、分析和搜索重要数据日志:
统一用户权限管理
提供统一用户权限管理,方便管理员对用户进行管理:
SDC Hadoop集成开发工具
提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。
流程控制
工作流是由多个节点和节点间的依赖关系所组成的一组逻辑和规则,形成一张有向无环图(DAG图)开发者可通过开发面板和管理面板新建工作流来新建工作流进入工作流设计器,在工作流设计器中通过拖拽不同类型节点并连线的方式来开发一个工作流,提供基本的数据集成、数据计算、数据调度等组件的工作流设计,支持工作流的新增、删除、修改、查询、测试运行、格式化、提交、保存。支持设置工作流任务定时执行,并实时监控任务执行情况,支持运行日志查看。
实时概况
采用多视图实时对流程运行进行监控,从状态、时段、步骤类型、耗时等不同角度查看过去12小时或24小时内所有流程的运行统计概况,帮助用户第一时间获知全局运行情况,并提供强大的性能分析报告优化流程调度:
流程设计:通过简单的拖拽方式即可完成数据特征提取,样本数据建立,数据挖掘场景构建等复杂流程设计,界面简洁,操作简单:
工作流列表和工作流设计在同一页面,方便用户快速的切换工作流进行操作,提供工作流新增、删除、修改、查询、运行、保存功能:
提供工作流组件参数配置,满足用户各类流程设计需求:
用户可设置工作流调度,让流程任务定时执行:
提供工作流运行、暂停功能,运行过程中实时返回各步骤运行结果:
运行监控:展示进行中和已完成的工作流信息,信息主要包含流程名称、状态、提交者、启动时间、结束时间、运行进度:
提供关键词搜索流程功能,支持按状态和周期筛选工作流,方
文档评论(0)