柯旻-扬帆起航--大数据应用的自动化运维之路.pdf

柯旻-扬帆起航--大数据应用的自动化运维之路.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
柯旻-扬帆起航--大数据应用的自动化运维之路

大数据应用的自动化运维之路 柯旻花名大舞,阿里集团技术 保障部-云计算运维-高级技术专 家,2007年加入阿里,目前负责 阿里Hadoop (云梯)/odps (5k)集群 以及内部OTS/ HBase系统的运维 工作。专注于大规模海量数据分 布式计算运维工作。 1999-2005 开始接触互联网 2005-2007 网易系统运维 2007-2009 alibaba系统运维 2009至今 大数据,云计算运维 旺旺:大舞 Email:dawu@ /u/1804480064 @大舞-ukl 分享内容  大数据/云运维面临的变化挑战  大数据/云运维要操心哪些事  自动化运维devops  性能瓶颈分析  数据化运维  大数据云环境下新的运维挑战 大数据/云运维面临的变化挑战  规模快速膨胀  跨机房,跨地 域  需求成本  数据安全  灵活性 Hadoop集群服务器增长 2009.4 2010.3 2010.7 2012.1 2012.10 2013.7 2014? 大数据/云运维要操心哪些事 自动化运维devops 1. 基础环境标准化 2. 硬件上线自动化检查 3. 自动化一站式portal 4. 自动化报表统计可视化 5. 硬件定制 6. devops 硬件上线前自动化检查 硬件上线前监测(fw版本,bios配置,驱动版本以 及性能情况) 8 自动化一站式portal 报表统计可视化 硬件定制 AliRack正面侧视图 AliRack正面冷通道视图 服务器部署效率提升10倍,总体拥有成本(TCO )降低5% 成本效率 Devops 集群自动化故障监测和处理系统开发—华佗 目前已经自动化处理: 1. 系统盘和飞天工作盘容量满。 2. 系统盘sda 损坏 3. 服务器load过高 4. 服务器宕机 5. 磁盘坏盘预测 6. 交换机故障 7. chunksrever shutdown 8. 机房间网络异常 9. 内存条损坏,内存总量减少 10.服务器硬件检查自动报修 性能瓶颈分析 • 常见的性能瓶颈 – Cpu (线程互锁,上下文切换,超线程,不同内核版本对系统调用的差异) – 内存(DDR3,三通道,NUMA) – 网络(网络通信库,交换机吞吐,万兆网的普及,吞吐中断) – 压缩技术 – 磁盘IO (IO优化,SSD,FIO及驱动) – 大数据传输与分发 – 分布式与并发调度

文档评论(0)

牛X文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档