4 智能运维在百度日常业务监控中的探索.docxVIP

4 智能运维在百度日常业务监控中的探索.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能运维在百度日常业务监控中的探究 2021-04-20 —?扫描二维码?—加入架构集结群 ?? 对技术感爱好的同学可进群(备注:Java) 随着互联网产品规模的迸发式增长,大型分布式系统的监控简单性也日益显现。工程师们发觉:监控遗漏导致宕机的黑天鹅现象频繁发生;消灭毛病时很难从海量监控目标中快速找到毛病根因;报警风暴极大地干扰了工程师定位问题的速度;毛病恢复速度基本依靠于工程师的操作速度。由此,我们尝试建立一个智能运维监控系统,期望用智能化的手段去挂念工程师处理这些问题。 一、嘉宾引见 曲显平 百度运维部资深研发工程师 百度智能运维监控担任人,在运维监控、大数据处理与分析方向有着丰富的阅历。 二、百度数据情况 随着百度各产品的蓬勃进展,百度的服务器数量也呈现出迸发式增长,最近5年增长了或许20倍的规模。与产品规模不断增长相对应地,运维人员每天会收到越来越多的监控报警,面对海量的运维目标,如何快速定位问题所发生的业务层面,达到精准化报警、快速处理问题的目标就成为运维监控常态化的需求。 百度监控系统数据规模,单以时间序列数据为例,不包含日志类数据。 服务器目标数量:1亿 业务目标数量:8千万 数据增长速度:50TB/日 三、运维中面临的监控问题 当前,面对简单的业务监控和问题诊断,运维人员想找到目标和大事之间的关联关系,进行因果关系推导,并最终定位毛病,基本依靠人的阅历来进行。但随着业务和监控规模的膨胀,运维也期望能够愈加自动化、智能化地达成保证服务高可用性的目标,即快速的问题发觉、分析定位或止损。 下面,我们可以从发觉问题—分析问题—处理问题的思路动身,逐渐给出递进的处理方案。 四、发觉问题篇:特别自动检测 日常运维的业务目标数据会消灭一些环比昨日的明显特别、持续偏离的明显问题和随着时间周期漂移的目标数据等问题,以前这些监控的配置基本靠工程师阅历或持续的迭代修正,甚至纯人工排查。随着监控系统的进展,可以通过制定监控标准和自动化监控部署实现运维的标准化和自动化,最终的目标,是期望用智能化的方法彻底处理这个问题。 一般,在系统消灭目标数据波动时,需要先判定能否的确为特别情况,确定特别后再实现精准报警。那么,怎样自动检测业务的特别目标,挂念运维工程师和开发工程师处理问题呢? 这里次要有两个策略,自动恒定阈值设定与动态阈值设定: 1.恒定阈值设定法 对于一般数据,运维人员在服务器端设定服务器应用目标超过某合理数值自动报警,并对服务器特别的波动形态进行报警。这个可使用一些标准的统计学方法去自动计算这个阈值,取代人工配置成本。 参考方式: 基于历史数据统计 假设正态分布 3-sigma策略 2.动态阈值设定法 百度大多数业务数据的流量呈现很强的天周期特性,在某时辰消灭数据波峰的骤降或波谷数据的骤增等变动情况时,恒定阈值法很难处理这类问题的精准特别推断。那么我们可以把上述方法衍变升级一下,接受动态时间窗口的阈值设定法来处理周期性数据的特别推断。 参考方式: 多分布方式:将数据分段 按天同期计算统计阈值 分段3-sigma策略 3.恒定阈值和动态阈值的使用 针对以上两种阈值划分方式,特别检测系统如何晓得应当对每组数据进行什么样的特别检测策略呢?这就需要一种方法提前对数据进行分类,可以接受一种可推断数据能否具有周期性趋势的分类器方式来处理。假如数据具有很强的周期性特征,建议使用动态阈值设定法;假如数据分析后没有周期性特征,那么使用恒定阈值就可以了。 另外,我们还会遇到这种特殊的情况,数据会随时间消灭漂移。比如某产品流量,会依据工作日、周末、传统长假等时间呈现出不同的数据特征,产生阶段性变化。这个时候要进行特别检测,就不只要考虑数据的一般周期性,还要考虑季节性和趋势性的变化。监控系统可通过对日常数据进行分析,接受三次指数平滑等方法,对数据本身的趋势性进行学习。 当然,上述方法都是基于从历史数据进行学习分析从而进行特别检测的,假如缺少历史数据,那么对于这些目标,基于历史数据进行同环比分析的意义就不大,核心就转化为检测数据有没有突升和突降特别。可接受类似于局部平滑的方法查看真实数据与局部平滑后数据有没有大的出入,假如差距较大,可推断为有大的突升和突降,可以标识数据特别。 参考方式: 局部平滑法 速度法 经过阅历的积累,对于核心产品的流量变动,即便波动不大,监控系统也可以做到灵敏且精准的目标监控,能够快速发觉特别情况。当然,全自动的特别检测系统难免会消灭误报、漏报等情况,这就要求特别检测系统需要支持工程师的标注与反馈,百度监控系统的自学习力量可以依据工程师的需求进举动态调整,可同时支持人为调整和系统自动参数学习调整,系统可自动依据工程师的标注或报警量的多少,进行参数训练,把特别检测参数调整到合理的范围。 工程师标注 修改参数 标记未检测到

文档评论(0)

136****7795 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档