- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
? ? ? ?
? ? ?
某运营商基于POWER Linux和GPFS搭建大数据集群案例介绍及经验总结
? ? ? ?
?
?
?
?
?
?
?
? ? ?
? ? ?
? ? ?
?
?
?
一、案例介绍
???????某省运营商基于 IPS POWER Linux 服务器搭建的大数据平台,主要用于重点领域大数据的高效采集和分析,挖掘数据价值。迄今为止,已建成集群平台规模达超过 100 个节点,存储容量超过 4PB ,每天处理的任务超过 3000 个,承载上网日志查证、客户标签体系构建、 APP 应用识别、实时营销、网管集中性能监控管理等公司内部业务,同时依托大数据平台,构建大数据能力开放生态链,与交通部、省高速等政企合作,实现大数据价值快速变现。
???????大数据平台使用 GPFS-FPO 作为企业级的分布式文件系统, IBM GPFS-FPO 作为企业级的分布式文件系统,具有安全、稳定、 POSIX 兼容、对文件类型支持灵活等特点,特别适合企业级环境的分布式文件存储与共享;采用 IBM Symphony 作为企业级的分布式计算调度中间件,能灵活应对多租户大数据应用场景下的资源管理和任务调度需求,实现多应用多用户的资源共享、安全隔离及 SLA 保障,实现等多种大数据应用的调度和管理。
二、客户收益
提高资源利用率:多个大数据应用共享一套资源平台,大大提高了资源利用率, 20 小时可以达到资源使用率平均 80% 以上。
保障应用 SLA :基于应用 SLA 的任务调度和资源管理方式,保障关键应用的 SLA 。
提高运维管理水平:完善的大数据平台管理中心,图形化监控管理用户、作业和资源。
提高大数据平台可靠性: IPS Powerlinux 作为创新的新一代应用服务器,具有性能高、安全可靠、配置灵活、性价比高等特点,保证了系统稳定运行,实现 7*24 小时业务连续性。
三、经验总结
合理的架构设计能有效降低后期运维工作量
在架构设计时,要充分考虑大数据平台的特性并进行针对性的设计、优化。一个优秀的架构能有效降低后期的运维成本 ;
对并行文件系统 metadata 盘的合理规划;
与应用结合,将海量的小文件合并成较大的文件、减少文件数量,避免大并发下资源的竞争;
采用高性能的服务器,加快数据分析效率。大数据技术平台的出现提升了数据处理效率,其效率的提升是几何级数增长的,过去需要几天或更多时间处理的数据,现在可能在几分钟之内就会完成。大数据的高效计算能力,为企业节省了更多的时间。因此,企业级大数据平台使用高性能的计算节点,能更高效快速地处理和分析数据。
采用高稳定性的服务器,减少设备宕机引发的维护工作等。虽然分布式文件系统一般有 3 份的数据保护,但如果集群中的节点频繁宕机,有可能造成 metadata 等元数据损坏,而对海量的数据进行 fsck 等操作,会浪费大量的时间成本和人力成本。
制定运维标准规范
规范制定和落实:大数据系统平台需面对接口部门多、上层承载业务各式各样、厂家技能不一等问题。需要构建一套大数据应用的开发、运维标准,明确多方职责及规章制度,制定和落实大数据平台设备入网、资源申请及业务上线、大数据平台使用等流程规范。
加强系统监控
企业级大数据平台涉及底层硬件、操作系统、分布式文件系统、开源数据库、作业调度与资源分配系统等,每个系统都是相互依赖,牵一发而动全身。因此需要对各系统进行有效监控,提前预防可能存在的风险。
加强对主机资源的监控,特别是对分布式文件系统空间使用率的监控。由于大数据平台是对海量数据进行分析处理,中间产生的临时数据和最终分析数据会占用大量存储空间,当文件系统空间使用率达到 70% 时,需要及时进行数据的清理,并将部分任务切换到备用平台,降低系统的工作负载。
增加网络专业的监控和应急处理能力。网络抖动对分布式集群影响极大,需要加强网络状态的监控,网络相关的参数调整和安全加固也需要仔细审核和测试。
加强对集群总体资源使用情况的实时监控。不仅限于单个节点的监控,而且要侧重于集群整体健康状况的监控,比如特别需要关注节点的性能均衡和数据均衡性,关注节点间的通信状况。
加强租户使用资源情况的监控,包括每个租户 Job 完成情况及当前所分配的资源情况,各个租户最近 24 小时运行的 Job 任务数,了解各个租户 Job 调度情况,进而合理安排各个租户的任务调度。
监控 job 的运行情况。每个租户会运行不同的 Job ,掌握各个租户每天 Job 运行情况,需要清楚 Job 相关信息,包括 Job 名称、 Job 运行状态、所属租户、运行时间、运行时长、期望多少资源、实际分配多少资源等。
4.GPFS-FPO 集群的优化建议
GPFS-FPO 的稳定性与网络、服务器的稳定性有很大的关系,因此要先保证
您可能关注的文档
- 某银行核心系统基于浪潮 K1 Power 架构的升级改造实践.doc
- 某银行核心系统同城双活建设方案及难点分析.doc
- 某银行基于华为高端存储的数据迁移实践之方案设计篇.doc
- 某银行基于华为高端存储的数据迁移实践之需求分析及设备选型篇.doc
- 某银行基于浪潮K1 Power架构设计实现分布式核心系统的实践.doc
- 某银行生产环境基于浪潮K1 Power私有云跨机房搬迁实践.doc
- 某银行云计算架构演进及思路分享.doc
- 某银行云模式下存储架构演进及思路分享.doc
- 某证券核心交易系统从 x86 架构迁移到浪潮 K1 Power 架构实践经验分享.doc
- 哪个更安全?白名单还是黑名单?Agent端对监控指标黑白名单的支持.doc
最近下载
- 《矿山企业温室气体排放核算方法与报告指南(试行)》.docx
- JGJ_T496-2022 房屋建筑统一编码与基本属性数据标准.docx
- [金属冶金标准]GBT 14506.8-2010 硅酸盐岩石化学分析方法 第8部分:二氧化钛量测定.pdf
- 掘进安全管理课件.pptx
- 钢平台验收记录表.docx
- IPC-2221C-EN TOC2023印制版设计通用标准 Generic Standard on Printed Board Design.pdf
- 小学数学《图形的运动》作业设计.docx
- 看课件-成人气道异物梗阻救护.ppt
- 中职旅游类《前厅服务与管理》职教高考必备试题库(含答案).docx
- 公务员平时考核评鉴表(空表).pdf VIP
文档评论(0)