混合集成学习算法的热迁移超时预测模型.docxVIP

下载本文档

1
0
约3.75千字
约 10页
2021-12-04 发布于天津
举报
版权申诉

混合集成学习算法的热迁移超时预测模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 混合集成学习算法的热迁移超时预测模型在云计算资源管理中，热迁移是实现资源配置的重要手段，常常会因为多种场景需要发起热迁移：例如资源调配，母机负载均衡以及运维人工热迁移等场景。而在当前热迁移任务中，热迁移在经过多次条件过滤后还是会不时遇到迁移超时失败的状况，在不恰当时机发起迁移任务，不仅影响了客户了SLA体验，也影响了热迁移效率。简要主要解决热迁移对象在内存利用变化快，磁盘读写速率快等状态的状况下无法推断其是否适合发起热迁移。本次任务方案选择了多集成学习算法的投票选举，这是一个基于RandomForest，Adaboosting，Xgboost业界主流算法的混合voting预估模型。30%真实数据集作为验证，预估精度97.44%，实现对热迁移发起任务的成功率预估，对于超时迁移识别的样本识别率实现，也就是说可以削减原来热迁移超时失败状况数量的80%。 1.需求背景在云计算资源管理中，热迁移是实现资源配置的重要手段，常常会因为多种场景需要发起热迁移：例如资源调配，母机负载均衡以及运维人工热迁移等场景。而在当前热迁移任务中，热迁移在经过多次条件过滤后还是会经常遇到迁移超时失败的状况，发起不合适的热迁移任务，不仅影响了客户了SLA体验，也影响了热迁移效率。按以往人工经验去进行推断是否适合热迁移，例如内存变化率高会影响热迁移，CPU使用率过高也会影响热迁移，在这之前尽管我们知道内存变化率过高，CPU使用率过高，乃至内外网吞吐量过高都会影响到热迁移的成功，但我们无法去构建一个衡量标准。并且假如频繁去监控获取子机的这些数据，也会对虚拟机性能造成影响，并且人工也无法去推断什么时间点哪些状况下哪个指标更重要，因此无法形成一个综合而客观稳定的判别标准。 2.实现目标所以我们引入了机器学习深度学习，期望能够拟合一个复杂模型去计算并量化出一个适合热迁移的状态标准，实现对热迁移发起后是否会超时失败进行预估。 3.实现简介 3.1特征空间 3.2特征处理考虑到每列数据的差异有6个数量级差别，所以需要对大数量级的列数据进行缩放。常用的做法有np.sqrt，np.log。 3.3HeatMap特征相关性分析热力图是最直观的展示特征之间的线性相关性，从图中我们可以看到cpu和mem呈强相关性，这是明显的结果，高性能cpu往往伴随大内存；其次呈现中等相关的是出入流量。由此简洁可以看出各个特征参数都是相对独立的，从线性相关角度看。 3.4算法简介：为什么选择随机森林与Xgboost 随机森林假如从深度学习的角度去理解，可以认为随机森林的决策树随机分裂，隐含地创造了多个联合特征，并能够解决非线性问题，可以相对离散地自动提取特征与权重学习。某种意义上实现CNN的卷积池化提取作用。并行计算，对于个别特征缺失不敏感。当构建决策树时，每次分裂时，都从全特征候选p集中选取m个进行分裂，一般m=sqrt(p)。随机森林不会出现过拟合，只要树的个数（B）足够大时会使得错误率降低。 Xgboost 在Kaggle比赛中的必备算法，属于Gradientboosting的高效实现。并且有以下三处的改进： (1).xgboost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。 (2).GB中使用LossFunction对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。 (3).CART回归树（GB）中查找最佳分割点的衡量标准是最小化均方差，xgboost查找分割点的标准是最大化，lamda，gama与正则化项相关。 AdaBoost 通过迭代实现把弱分类器训练成强分类器，每一次迭代后会对错误数据的关注度更高（策略为最小化分类误差率），使得下一个基学习器会对上次迭代数据更有更多的针对性，最终构建成附带权重的线性组合集成学习。在数据清洗洁净的状况下，效果会更好。在云计算资源管理中，热迁移是实现资源配置的重要手段，常常会因为多种场景需要发起热迁移：例如资源调配，母机负载均衡以及运维人工热迁移等场景。而在当前热迁移任务中，热迁移在经过多次条件过滤后还是会不时遇到迁移超时失败的状况，在不恰当时机发起迁移任务，