- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
系统详设
本文档之所以简单,是因为面向高阶,不赘述大家耳熟能详的细节。
机器沙盘
1、介入时间:机器进入xbox,这些机器是从xman中同步过来的。应该放到一个buffer池
中。此时(可能全公司只有一个,也可能各个owt分别有自己的备机池),这些机器会自动
添加上基础,接收人是备机管理员。怎么做到的呢?buffer池节点创建之初,就已
经由备机管理员添加了一个基础项模板,这个模板是比较有经验的sre讨论出来的,自
动加了一个策略模板,接收人就是备机管理员(备机嘛,可能频率不高,比如连续
报了10次才发一个email)。
2、机器要上服务了,创建一个新节点,把机器从备机池拿过来(机器从一个节点拿掉,原
来节点绑定的模板就会失效),我们仍然要加基础,但是默认的策略模板需要修改,可以
继承过来修改一下然后绑定之,或者直接绑定之前准备好的基础项策略模板绑定之。如果对
项模板没有定制,每次就直接使用类似备机池那样的基础项模板即可,觉得每次
从备机池删掉相关项就删掉了觉得,可以在比较的节点上提前绑定好。
3、对于同一个pdl的机器可能有一些共性的,OK,制作成一个common模板,哪个服
务想用就直接绑定这个common模板即可。建议这个common模板绑定到pdl这个高
于srv层级的tag上,因为某个srv可能比较特殊,它即使不想用也没办法。建议的做法是:
这个srv的sre制作一个模板,继承common模板,使用覆盖的方式定制化自己的需求,然
后把这个定制化的模板绑定在自己的srv上。
第二条建议在级节点上绑定通用项模板,第三条又不建议,呵呵,不能理解了么?
再读一遍第二第三条,这个需要用户自己做决定,度自己把握,如果这个节点的所有孩
子节点都是一样的需求,那就在节点上绑定,否则就只能在低级节点上绑定了。
4、服务要下线了,sre对服务做一些stop操作,然后归还到备机池,既然机器从原来的节
点拿掉了,故而在原来节点绑定的模板都会失效,但是机器加入备机池节点,就会自动生效
原来备机池应用的模板,nice。
5、机器下线,从备机池或者从正常服务节点直接删除,所有自动失效
ps:对于所有做了raid的机器做。这个需求需要新建一个节点,放置所有做了raid的机
器,然后绑定raid相关的项和策略模板。
实例沙盘
实例和机器有很大不同。
数据是希望用户通过apipush上来,push上来的数据至少包含如下几项:
endpoint:比如ip:port,要求group下全局唯一
group名称:比如jobtag,不能跟别的业务重复,同一个job的不同instance,采用同一个
group名称
timestamp:时间戳
metric:到底是的啥,比如qps,thread.cnt
val:metric的值
通过apipush上来的数据根本不需要事先在系统中定义项,自然也不需要什么项模
板了。
那策略怎么搞?
直接进入系统实例页面做配置,配置采用perfcounter的方式:
metric=qps,endpoint=10.21.23.33,group=xbox,val10000,send_to=qinxiaohui:mail
metric=qps,group=xbox,val5000,send_to=qinxiaohui:phone
metric=qps,group=xbox,avg(val)8000,send_to=user-group1:all
说明:
0、每条都必须指定group
1、第一条是指定了具体的endpoint,是说就是这个endpoint的val10000就
2、第二条没有指定endpoint,是说group=xbox的所有endpoint采用相同规则,val5000即
3、第三条没有指定endpoint,是说group=xbox的所有endpoint的val的平均值,如果8000
就。
ps:如果连续多次都没有数据,应该也,可能instance挂掉了或者用户把instance下线
了而忘记了删除实例策略
机器领
原创力文档


文档评论(0)