监控系统详细设计与实施策略.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

系统详设

本文档之所以简单,是因为面向高阶,不赘述大家耳熟能详的细节。

机器沙盘

1、介入时间:机器进入xbox,这些机器是从xman中同步过来的。应该放到一个buffer池

中。此时(可能全公司只有一个,也可能各个owt分别有自己的备机池),这些机器会自动

添加上基础,接收人是备机管理员。怎么做到的呢?buffer池节点创建之初,就已

经由备机管理员添加了一个基础项模板,这个模板是比较有经验的sre讨论出来的,自

动加了一个策略模板,接收人就是备机管理员(备机嘛,可能频率不高,比如连续

报了10次才发一个email)。

2、机器要上服务了,创建一个新节点,把机器从备机池拿过来(机器从一个节点拿掉,原

来节点绑定的模板就会失效),我们仍然要加基础,但是默认的策略模板需要修改,可以

继承过来修改一下然后绑定之,或者直接绑定之前准备好的基础项策略模板绑定之。如果对

项模板没有定制,每次就直接使用类似备机池那样的基础项模板即可,觉得每次

从备机池删掉相关项就删掉了觉得,可以在比较的节点上提前绑定好。

3、对于同一个pdl的机器可能有一些共性的,OK,制作成一个common模板,哪个服

务想用就直接绑定这个common模板即可。建议这个common模板绑定到pdl这个高

于srv层级的tag上,因为某个srv可能比较特殊,它即使不想用也没办法。建议的做法是:

这个srv的sre制作一个模板,继承common模板,使用覆盖的方式定制化自己的需求,然

后把这个定制化的模板绑定在自己的srv上。

第二条建议在级节点上绑定通用项模板,第三条又不建议,呵呵,不能理解了么?

再读一遍第二第三条,这个需要用户自己做决定,度自己把握,如果这个节点的所有孩

子节点都是一样的需求,那就在节点上绑定,否则就只能在低级节点上绑定了。

4、服务要下线了,sre对服务做一些stop操作,然后归还到备机池,既然机器从原来的节

点拿掉了,故而在原来节点绑定的模板都会失效,但是机器加入备机池节点,就会自动生效

原来备机池应用的模板,nice。

5、机器下线,从备机池或者从正常服务节点直接删除,所有自动失效

ps:对于所有做了raid的机器做。这个需求需要新建一个节点,放置所有做了raid的机

器,然后绑定raid相关的项和策略模板。

实例沙盘

实例和机器有很大不同。

数据是希望用户通过apipush上来,push上来的数据至少包含如下几项:

endpoint:比如ip:port,要求group下全局唯一

group名称:比如jobtag,不能跟别的业务重复,同一个job的不同instance,采用同一个

group名称

timestamp:时间戳

metric:到底是的啥,比如qps,thread.cnt

val:metric的值

通过apipush上来的数据根本不需要事先在系统中定义项,自然也不需要什么项模

板了。

那策略怎么搞?

直接进入系统实例页面做配置,配置采用perfcounter的方式:

metric=qps,endpoint=10.21.23.33,group=xbox,val10000,send_to=qinxiaohui:mail

metric=qps,group=xbox,val5000,send_to=qinxiaohui:phone

metric=qps,group=xbox,avg(val)8000,send_to=user-group1:all

说明:

0、每条都必须指定group

1、第一条是指定了具体的endpoint,是说就是这个endpoint的val10000就

2、第二条没有指定endpoint,是说group=xbox的所有endpoint采用相同规则,val5000即

3、第三条没有指定endpoint,是说group=xbox的所有endpoint的val的平均值,如果8000

就。

ps:如果连续多次都没有数据,应该也,可能instance挂掉了或者用户把instance下线

了而忘记了删除实例策略

机器领

文档评论(0)

183****7931 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档