- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专家论坛 Experts Forum
智能运维:实现 文/沈洁
华为NFV能力中心
云化核心网运维效率倍增 首席规划师
运维体系在经过了脚本化、自动化等阶段后,正朝智能化的方向发展。智能运维是传统电信系
统提升运维效率、降低运维成本的重要手段。如何从具体的运维需求出发,运用智能的技术解
决实际的现网问题是智能运维的目标。
24 2018.12 第 期
81
智能运维:实现云化核心网运维效率倍增
信系统经过多年的研发、测 线接入后的所有管道和话音交换等设
电试、部署及运行,积累了大 备,网元种类多,相互之间的接口和信
量的运维经验。系统设计本 令交互复杂多样,监控KPI数量庞大,
身也是千锤百炼,一般常见的问题都 一个典型的VoLTE 系统,KPI数量可高达
被无数次的 bug fix 解决并集成到了后 30,000 以上。从服务和维护的反馈来
续的系统设计中。然而,问题少并不 看,目前碰到的最多最棘手的两类问
意味着现场维护的任务减轻了,相反, 题,一是升级后的某些隐患不能及时发
现场一旦出现问题往往猝不及防,定 现而造成后来的事故;二是静默故障,
界定位难度高,常常令运维人员感觉 事故的发生很突然,不能快速定界,贻 电信系统的升级多安排
无所适从。 误时机,酿成大事故。
在深夜用量较少的时
第一类问题主要发生在升级或操
运维中最常见的两类问题 作变更场景。电信系统的升级多安排 段,升级后的业务量较
在深夜用量较少的时段,升级后的业 低,即使升级时有错误
云化核心网的产品范围包括从无 务量较低,即使升级时有错误操作, 操作,引发的系统错误
不论是配置错误或是升级软件自身的
bug,引发的系统错误有时不一定能从 有时不一定能从系统的
系统的关键KPI监控中发现。最近有一 关键KPI 监控中发现。
个实例:在D运营商的一次HSS升级任
务中,不慎引入一个鉴权问题。升级
完成后,HSS上的关键KPI鉴权成功率指
标正常;但从非关键的其他指标例如
MSC上看,其鉴权成功率逐渐下降。只
有通过全量指标综合分析才能识别异
常。如何有效地发现这些隐患?经分
析后发现,系统如果有以下两个能力
就可以帮助发现异常:一是动态地监
控记录系统所有指标的周期性动态阈
值范围;二是对所有指标实时地与同
一时间点的动态阈值作比较,找出偏
差大的指标。
第二类问题主要发生在日常监控
场景,主要表现是业务异常但无告
警,关键KPI也无异常。比如A 运营商
因EOR
文档评论(0)