- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;功能模块层;在智能运维(AIOps)平台落地的实践中,算法和数据的融合,第一步是数据的采集和汇聚,通过前文介绍的关键技术,我们已经获得了质量标准归一化的、经过了提取和转换的、时间/空间/业务维度标记清楚的数据,需要补充的是数据预处理相关的核心要点。;在数据挖掘中,海量原始数据中存在大量不完整(有缺失值)、不一致或有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差。
数据预处理的目的是提高数据质量,从而提升数据挖掘的质量。
方法包括数据清洗、数据集成和转换,以及数据归约。;通过数据预处理,可以去掉数据中的噪音,纠正不一致;
数据集成将数据由多个源合并成一致的数据存储,如数据仓储或数据立方;
数据变换(如规范化)也可以使用,例如规范化可以改进涉及距离度量的挖掘算法的精度和有效性;
数据规约可以通过合并、删除冗余特征或聚类来压缩数据。
这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。;需要注意,有些算法对异常值非常敏感。
任何依赖均值/方差的算法都对离群值敏感,因为这些统计量受极值的影响极大。
另一方面,一些算法对离群点具有更强的鲁棒性。
数据分析中的描述性统计分析认为:当我们面对大量信息的时候,经常会出现数据越多,事实越模糊的情况,因此我们需要对数据进行简化,描述统计学就是用几个关键的数字来描述数据集的整体情况。;在智能运维(AIOps)算法分析系统中,不同算法对应不同的适配场景,需要根据数据特征模式来选择合适的算法应用。
如指标异常算法的应用:
针对周期稳定的数据,我们采取动态极限的模型;
针对周期不稳定的数据,采用频域分析的模型;
针对稳定的数据采用极限阈值判断的模型。
通过模型选择的算法,对于相同的数据的模型进行适配,达到最优的效果。;因此,想要以开箱即用的方式、采用某种标准的机器学习算法直接应用,而不考虑业务特征,通常并不可行。;我们需要首先考虑该组业务指标间的关联性,如果有应用或系统间的调用链或调用拓扑供参考,这是最好不过的。
如果没有调用链或拓扑,则需要先根据已知可能的业务相关性,进行曲线波动关联、回归分析等算法分析,获得极限阈值尝试得到因果匹配,通过一系列的事件归集得到相关性,再对每一次反馈进行适应,尝试自动匹配更为准确的算法和参数,才可能达到期望的异常检测目标。;智能运维的工程化过程,是一个算法、算力与数据相结合,平台自身与业务系统反馈相结合的复杂过程。
在与业务场景结合的前提下,灵活的算力组织、高效的数据同步、可插拔的服务化、模型应用过程中的高精度与高速度,是AI工程化本身的核心诉求。;
文档评论(0)