- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
当前,证券业正处于快速发展的历史机遇期,资本市场改革和金融体系开放在为各家券商带来业务增量的同时,也对其金融科技水平和抗风险能力提出了更高要求,而证券交易系统的平稳、健康运行不仅与广大投资者的合法权益密切相关,更是涉及金融安全、社会稳定的重要课题。实际场景中,证券业务具有交易时段集中、交易规模巨大等显著特点,对IT系统的可用性和响应效率均有着非常严苛的要求,给系统运维工作带来了巨大压力。在此背景下,证券业运维工作急需开展智能化转型,以更为高效地支撑业务发展。
一、证券业运维转型面临的算法挑战
现阶段,智能运维的主流方案一般基于“大数据+机器学习”技术实现,即应用统计学方法来分析告警、事件、指标、日志等大数据样本,并结合机器学习算法进一步预测系统行为,这一模式的主要特点是应用驱动、事后分析、数据拟合。然而,伴随智能化运维需求的持续提升,智能算法出现了一些难以解决的问题,并导致其在复杂系统全维度监控、故障定位等工作中面临着诸多挑战。
1.盲人摸象式算法无法洞见系统整体运行情况
在传统的监控系统中,运维人员通常更关注基础监控、应用服务的接口请求量等指标,但在复杂系统中,仅仅关注单点日志或者单个维度指标并不足以帮助其掌握系统的整体运行状况。例如,当行情火爆时,单指标异常检测算法可能会基于访问并发数产生CPU告警,但通过分析日志可以发现,这一情况在证券业属于正常现象。
2.数据缺陷无法得到有效补偿
在运维领域,故障数据的稀疏性会导致算法没有足够的样本,使其只能在有限的数据范畴内进行建模、拟合、预测,从而影响智能算法的实际效果。但在实际工作中,由于证券行业对后台服务运行的稳定性和安全性要求极高,系统故障本身是一个小概率、低频事件,而算法需要基于大量历史数据来学习规律,并借此实现优化提升,如果之前发现的故障后来不再出现了,那么实际上是形成了一个悖论。
3.算法适应性不足
由于运维系统架构复杂,关联关系呈网状发展,数据驱动的算法很难做到适应性演进。与此同时,如果使用一个缺乏观测、分析系统内部运行机制的结构化模型,意味着必须开展大量的数据采集、模型适配、参数调优等工作来确保分析准确性,而一旦过分依赖大数据,会导致模型对黑天鹅事件等难以形成有效预测。此外,证券业系统变更频繁,基于历史大数据样本得到的经验规律和特征模型经常难以再复用,也无法准确分析和预测当前系统行为,而针对不同类型的问题场景定制专门的分析解决方案,将大幅提升运维人员的技能学习成本。
4.算法缺乏有效的反馈和修正机制
在实际应用中,智能运维算法并非“开箱即用”,而是需要与运维数据、业务特点、运维目标等深度融合,不断进行打磨和适配。但是,目前大多数算法缺乏基于反馈的模板调整能力,难以应对“这种模板应该根据这个变量拆分”“这个变量应该被泛化”等个性化需求。此外,运维专家与算法设计人员对于“故障”的理解也不尽相同,从而导致算法可能进行了无效学习或是错误学习,并直接影响了算法的有效性。
二、数字孪生系统分析体系建设路径
针对上述难点,证券业急需以实现复杂IT平台可观、可测、可控为目标,从实时、在线维度还原系统工作机制并构建系统分析模型,研究、设计和验证具有系统性、鲁棒性、自适应、自学习的智能运维新算法,以更好满足复杂系统潜在故障检测以及系统稳定性分析等运维需求。
1.总体规划
围绕上述目标,笔者团队以实现复杂系统的整体可观测性为核心,从系统内部的白盒化思路出发,提出了数字孪生系统分析体系建设规划,并进一步细分为两个阶段:
第一阶段是自上而下建立多层次指标体系,即通过描述系统内不同组件、模块之间的依赖关系,构建系统内各指标间的非线性影响权重量化模型,以更为准确地展现IT系统运行状态,同时为数据管理、数据分析、智能运维等场景提供基础数据;并在此基础上,结合数据融合、特征工程、智能分析等手段,全面、准确、及时把握高维复杂状态空间,满足IT平台的全维度观测需求。
第二阶段是自下而上构建数字孪生镜像模型,通过降低数据依赖性、提升算法适应性,使得在系统结构或业务环境发生改变时,可基于数据动态输入、算法动态调整,让数字孪生镜像模型快速适应系统变化,最终在整体保持系统稳定性与可靠性的同时,高效解决大规模、多尺度时变平台的实时调控问题,实现对IT平台能力的量化评估。
2.算法设计
IT系统中各类资源构成的参数空间具有数量庞大、参数间存在复杂的非线性交互影响等特点。为分析IT系统不同模块之间的关联交互作用,首先需要量化分析不同模块相关参数对相邻模块以及服务质量关键指标(QualityofService,QoS)的贡献程度,从而建立模块之间的量化交互模型。为此,笔者团队将平台中不同层级的功能模块抽象为不同的逻辑功能节点,并构建了分层影响作用树(如图1所示)。其中,每个节点根据不同的模型类型,均可以代表系统转
文档评论(0)